Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hier is de Ritual Research Digest van deze week, een nieuwsbrief die de laatste ontwikkelingen in de wereld van LLM's en de kruising van Crypto x AI behandelt.
Met honderden gepubliceerde artikelen per week is het onmogelijk om bij te blijven met het laatste nieuws. Wij doen het lezen zodat jij dat niet hoeft te doen.

Tokens met een lage waarschijnlijkheid ondersteunen verkenning in versterkend leren met verifieerbare beloning
Dit artikel stelt vast dat de bottleneck van redeneermodellen kan voortkomen uit de eliminatie van low-probability verkennende tokens (ze noemen ze Redeneersprankels).

Ze introduceren Lp-Reg om waardevolle low-probability tokens te behouden via regularisatie. Lp-Reg verwijdert eerst ruisende low-probability tokens en herverdeelt vervolgens de waarschijnlijkheidsmassa onder de overgebleven kandidaten.
Op 5 wiskundige benchmarks op Qwen3-14B verbeteren ze met 2,66%.

Over de rol van temperatuurmonsters in testtijdschaling
Recente schaling van testtijdschaling (TTS) heeft Pass@k verhoogd tot 1024, maar hebben we de limiet van TTS-prestaties bereikt? De paper toont aan, door middel van temperatuurmonsters, dat we TTS verder kunnen schalen.

De documenten tonen aan dat temperatuur een nieuwe dimensie kan zijn voor schaling tijdens de testfase. Door experimenten met Qwen3 (0,6B, 1,7B, 4B, 8B) en vijf benchmarks, levert temperatuur schaling 7,3 punten op ten opzichte van single-temperature TTS. Ze ontwerpen ook een efficiënte methode voor T-scaling.


DiffuSpec: Het ontgrendelen van diffusietaalmodellen voor speculatieve decodering
Diffusiemodellen als opstellers voor speculatieve decodering zijn een goede keuze vanwege de hogere doorvoer van tokenvoorstellen per stap en de sterkere kwaliteit van de voorstellen.

Echter, diffusie modellen hebben te maken met problemen met betrekking tot causale afstemming en de lengte van het concept.
Om deze problemen aan te pakken, presenteert het paper DiffuSpec, een training-vrije methode. Bij diverse taken levert het tot 3× versnelling in wandklok, wat beter presteert dan andere training-vrije baselines.

Door synthetische gegevens te genereren met verschillende niveaus van leesbaarheid, ontdekken ze dat leesbaarheid niet de sleutel is tot coherentie in kleine taalmodellen.
Hun bevindingen suggereren dat statistische eenvoud een sterkere voorspeller is van leerbaarheid in kleine taalmodellen.

Volg ons @ritualdigest voor meer over alles wat met crypto x AI-onderzoek te maken heeft, en @ritualnet om meer te leren over wat Ritual aan het bouwen is.
1,48K
Boven
Positie
Favorieten

