DApp Store | Centrum Web3 pro události a hry

Populární témata

Zde je tento týden Ritual Research Digest, zpravodaj pokrývající nejnovější ve světě LLM a průnik Crypto x AI. Se stovkami novin publikovaných týdně je nemožné mít přehled o těch nejnovějších. Čteme my, takže vy nemusíte.

Tokeny s nízkou pravděpodobností udržují průzkum v posilovaném učení s ověřitelnou odměnou Tento článek zjistil, že úzké hrdlo modelů uvažování může pramenit z eliminace průzkumných tokenů s nízkou pravděpodobností (nazývají je Reasoning Sparks).

Zavádějí Lp-Reg, aby uchovali cenné tokeny s nízkou pravděpodobností prostřednictvím regularizace. Lp-Reg nejprve zahodí hlučné tokeny s nízkou pravděpodobností a poté přerozdělí množství pravděpodobnosti mezi zbývající kandidáty. V 5 matematických srovnávacích testech na Qwen3-14B se zlepšily o 2,66 %.

O úloze teplotního vzorkování při škálování za zkušební doby Nedávné škálování škálování doby testu (TTS) se zvýšilo Pass@k na 1024, ale dosáhli jsme stropu výkonu TTS? Články ukazují, že prostřednictvím teplotních vzorků můžeme TTS dále škálovat.

Dokumenty ukazují, že teplota může být novou dimenzí pro škálování v době testu. Prostřednictvím experimentů napříč Qwen3 (0,6B, 1,7B, 4B, 8B) a pěti benchmarky poskytuje škálování teploty 7,3 bodů oproti TTS s jednou teplotou. Navrhují také efektivní metodu pro T-škálování.

DiffuSpec: Odemykání jazykových modelů difúze pro spekulativní dekódování Modely difúze jako navrhovatelé pro spekulativní dekódování se dobře hodí kvůli vyšší propustnosti návrhu tokenu na krok a vyšší kvalitě návrhu.

Difúzní modely však trpí problémy souvisejícími s kauzálním zarovnáním a délkou úkosu. K řešení těchto problémů článek představuje metodu DiffuSpec, která nevyžaduje školení. U různých úloh poskytuje až 3× zrychlení hodin, čímž překonává ostatní základní hodnoty bez tréninku.

Generováním syntetických dat s různým stupněm obtížnosti čitelnosti zjišťují, že čitelnost není klíčem k soudržnosti v malých jazykových modelech. Jejich zjištění naznačují, že statistická jednoduchost je silnějším prediktorem schopnosti učit se v SLM.

Sledujte nás @ritualdigest pro více informací o všem, co se týká výzkumu crypto x AI, a @ritualnet se dozvědět více o tom, co Ritual buduje.

1,47K

Top

Hodnocení

Oblíbené