Hier is de Ritual Research Digest van deze week, een nieuwsbrief die de laatste ontwikkelingen in de wereld van LLM's en de kruising van Crypto x AI behandelt. Met honderden gepubliceerde artikelen per week is het onmogelijk om bij te blijven met het laatste nieuws. Wij doen het lezen zodat jij dat niet hoeft te doen.
Niet alle bits zijn gelijk: Schaalafhankelijke geheugenoptimalisatiestrategieën voor redeneermodellen De auteurs onderzoeken de principes van geheugencompressie voor redeneermodellen. Ze overwegen modelgrootte, precisie, generatielengte en KV-cachecompressie.
Ze vragen: Wat is de balans van de factoren om de nauwkeurigheid bij redeneertaken te maximaliseren onder een vast geheugenbudget? Meer dan 1700 experimenten met de Qwen3-familie op AIME en GPQA-Diamond. Ze ontdekken dat er geen universele strategie is, maar ze hebben aanbevelingen die specifiek zijn voor de grootte.
De kunst van het schalen van Reinforcement Learning-rekenkracht voor LLM's Dit werk verkent de wetenschap van RL-schaalvergroting en ontwikkelt ScaleRL, een recept dat voorspelbaar schaalt met rekenkracht. Het ontwerp is gebaseerd op een empirische studie van RL-schaalvergroting over 400.000 GPU-uren.
Ze vinden drie belangrijke principes: • RL-prestatiegrenzen zijn niet universeel • Bittere les geldt ook voor RL • Veelvoorkomende interventies die gedacht worden de piekprestaties te verbeteren, passen voornamelijk de rekenefficiëntie aan, zonder de prestatiegrens aanzienlijk te veranderen.
LLM's kunnen "Brain Rot" krijgen! Dit paper onderzoekt of LLM's Brain Rot kunnen krijgen, d.w.z. of ze, wanneer ze zijn getraind op rommelige webtekst, een blijvende cognitieve achteruitgang vertonen? Ze experimenteren door datasets te construeren van sociale media (Twitter/X) via de twee rommelmetrics.
Vergelijkende benchmarking tussen schone en junk datasets toont aan dat de junkinterventie geassocieerd is met cognitieve achteruitgang in redeneren, lange context en ethische normen. Donkere persoonlijkheden van LLM's komen naar voren met M1 junkinterventie, wat aanzienlijke veiligheidszorgen oproept.
Gooi je voorgetrainde model niet weg Alignment/RL is integraal geworden voor LLM-training, maar heeft verschillende nadelen waar voorgetrainde basismodellen goed in zijn. Dit artikel onderzoekt hoe we de voordelen van beide werelden kunnen benutten en aanpasbare AI-systemen kunnen ontwikkelen.
Ze stellen Switch Generation voor, waarbij meerdere model checkpoints dynamisch worden geselecteerd voor generatie. Experimenten met 8 samenwerkingsbaselines en 18 datasets tonen aan dat model samenwerkingsbenaderingen alle individuele modellen overtreffen op 16 van de 18 datasets.
Hoe versterkend leren na volgende-token voorspelling leren vergemakkelijkt Het artikel bestudeert hoe autoregressieve modellen slagen in uitdagende voorspellingsopdrachten door dit trainingsrecept te volgen (volgende-token voorspelling gevolgd door versterkend leren).
Voor experimenten gaan ze ervan uit dat de pre-trainingsdata zeldzame demonstraties bevatten voor een taak van interesse. Hierop baseren ze hun uitleg: - Generalisatieproblemen tijdens de pre-training - Hoe RL leidt tot een snelle verbetering - Wat leidt tot langere reacties?
Volg ons @ritualdigest voor meer over alles wat met crypto x AI-onderzoek te maken heeft, en @ritualnet om meer te leren over wat Ritual aan het bouwen is.
566