Zde je tento týden Ritual Research Digest, zpravodaj pokrývající nejnovější ve světě LLM a průnik Crypto x AI. Se stovkami novin publikovaných týdně je nemožné mít přehled o těch nejnovějších. Čteme my, takže vy nemusíte.
Tokeny s nízkou pravděpodobností udržují průzkum v posilovaném učení s ověřitelnou odměnou Tento článek zjistil, že úzké hrdlo modelů uvažování může pramenit z eliminace průzkumných tokenů s nízkou pravděpodobností (nazývají je Reasoning Sparks).
Zavádějí Lp-Reg, aby uchovali cenné tokeny s nízkou pravděpodobností prostřednictvím regularizace. Lp-Reg nejprve zahodí hlučné tokeny s nízkou pravděpodobností a poté přerozdělí množství pravděpodobnosti mezi zbývající kandidáty. V 5 matematických srovnávacích testech na Qwen3-14B se zlepšily o 2,66 %.
O úloze teplotního vzorkování při škálování za zkušební doby Nedávné škálování škálování doby testu (TTS) se zvýšilo Pass@k na 1024, ale dosáhli jsme stropu výkonu TTS? Články ukazují, že prostřednictvím teplotních vzorků můžeme TTS dále škálovat.
Dokumenty ukazují, že teplota může být novou dimenzí pro škálování v době testu. Prostřednictvím experimentů napříč Qwen3 (0,6B, 1,7B, 4B, 8B) a pěti benchmarky poskytuje škálování teploty 7,3 bodů oproti TTS s jednou teplotou. Navrhují také efektivní metodu pro T-škálování.
DiffuSpec: Odemykání jazykových modelů difúze pro spekulativní dekódování Modely difúze jako navrhovatelé pro spekulativní dekódování se dobře hodí kvůli vyšší propustnosti návrhu tokenu na krok a vyšší kvalitě návrhu.
Difúzní modely však trpí problémy souvisejícími s kauzálním zarovnáním a délkou úkosu. K řešení těchto problémů článek představuje metodu DiffuSpec, která nevyžaduje školení. U různých úloh poskytuje až 3× zrychlení hodin, čímž překonává ostatní základní hodnoty bez tréninku.
Generováním syntetických dat s různým stupněm obtížnosti čitelnosti zjišťují, že čitelnost není klíčem k soudržnosti v malých jazykových modelech. Jejich zjištění naznačují, že statistická jednoduchost je silnějším prediktorem schopnosti učit se v SLM.
Sledujte nás @ritualdigest pro více informací o všem, co se týká výzkumu crypto x AI, a @ritualnet se dozvědět více o tom, co Ritual buduje.
1,47K