Oto najnowszy Digest Ritual Research, newsletter obejmujący najnowsze wydarzenia w świecie LLM-ów oraz na styku Crypto x AI. Z setkami publikacji co tydzień, niemożliwe jest nadążanie za nowinkami. My czytamy, abyś nie musiał.
Tokeny o niskim prawdopodobieństwie wspierają eksplorację w uczeniu przez wzmocnienie z weryfikowalną nagrodą Niniejszy artykuł stwierdza, że wąskie gardło modeli rozumowania może wynikać z eliminacji niskoprawdopodobnych tokenów eksploracyjnych (nazywają je Iskrami Rozumowania).
Wprowadzają Lp-Reg, aby zachować cenne tokeny o niskim prawdopodobieństwie za pomocą regularyzacji. Lp-Reg najpierw odrzuca hałaśliwe tokeny o niskim prawdopodobieństwie, a następnie redistribuuje masę prawdopodobieństwa wśród pozostałych kandydatów. Na 5 benchmarkach matematycznych na Qwen3-14B poprawiają o 2,66%.
O roli próbkowania temperatury w skalowaniu w czasie testu Ostatnie skalowanie skalowania w czasie testu (TTS) zwiększyło Pass@k do 1024, ale czy osiągnęliśmy sufit wydajności TTS? Artykuł pokazuje, że poprzez próbkowanie temperatury możemy dalej skalować TTS.
Dokumenty pokazują, że temperatura może być nowym wymiarem skalowania w czasie testu. Dzięki eksperymentom przeprowadzonym na Qwen3 (0.6B, 1.7B, 4B, 8B) oraz pięciu benchmarkach, skalowanie temperatury przynosi 7.3 punktów w porównaniu do jednolitych temperatur TTS. Opracowali również efektywną metodę skalowania T.
DiffuSpec: Odblokowywanie modeli językowych dyfuzji dla spekulacyjnego dekodowania Modele dyfuzji jako projektanci dla spekulacyjnego dekodowania są dobrym wyborem ze względu na wyższą przepustowość propozycji tokenów na krok oraz lepszą jakość propozycji.
Jednak modele dyfuzji cierpią na problemy związane z dopasowaniem przyczynowym i długością szkicu. Aby rozwiązać te problemy, artykuł przedstawia DiffuSpec, metodę bez treningu. W różnych zadaniach osiąga do 3× przyspieszenia czasu rzeczywistego, przewyższając inne podstawowe metody bez treningu.
Generując syntetyczne dane o różnym stopniu trudności w czytaniu, odkrywają, że czytelność nie jest kluczem do spójności w małych modelach językowych. Ich wyniki sugerują, że statystyczna prostota jest silniejszym predyktorem przyswajalności w SLM.
Śledź nas @ritualdigest, aby uzyskać więcej informacji na temat wszystkiego, co związane z kryptowalutami i badaniami AI, oraz @ritualnet, aby dowiedzieć się więcej o tym, co buduje Ritual.
1,48K