Iată Ritual Research Digest din această săptămână, un buletin informativ care acoperă cele mai recente noutăți din lumea LLM-urilor și intersecția dintre Crypto x AI. Cu sute de lucrări publicate săptămânal, este imposibil să rămânem la curent cu cele mai recente. Noi citim ca să nu trebuiască să o faceți.
Nu toți biții sunt egali: strategii de optimizare a memoriei dependente de scară pentru modelele de raționament Autorii investighează principiile compresiei memoriei pentru modelele de raționament. Acestea iau în considerare dimensiunea modelului, precizia, lungimea generației și compresia cache-ului KV.
Ei întreabă: Într-un buget fix de memorie, care este echilibrul factorilor pentru a maximiza acuratețea sarcinilor de raționament? Peste 1700 de experimente pe familia Qwen3 pe AIME și GPQA-Diamond. Ei constată că nu există o strategie universală, dar au recomandări specifice mărimii.
Arta de a scala calculul de învățare prin întărire pentru LLM Această lucrare explorează știința scalării RL și dezvoltă ScaleRL, o rețetă care se scalează previzibil cu calculul. Designul se bazează pe un studiu empiric al scalării RL de peste 400.000 de ore GPU.
Ei găsesc trei principii cheie: • Plafoanele de performanță RL nu sunt universale • Lecția amară se aplică și RL • Intervențiile obișnuite despre care se crede că îmbunătățesc performanța de vârf ajustează în principal eficiența de calcul, fără a modifica considerabil plafonul de performanță.
LLM-urile pot avea "putregaiul creierului"! Această lucrare studiază dacă LLM-urile pot avea putregaiul creierului, adică dacă sunt antrenate pe text web nedorit, are un declin cognitiv de durată în LLM-uri? Ei experimentează prin construirea de seturi de date din rețelele sociale (Twitter/X) prin intermediul celor două valori nedorite.
Comparativa comparativă între seturile de date curate și junk arată că intervenția junk este asociată cu declinul cognitiv al raționamentului, al contextului lung și al normelor etice. Personalitățile întunecate ale LLM-urilor apar cu intervenția M1, aruncând probleme semnificative de siguranță.
Nu aruncați modelul pre-antrenat Alignment/RL a devenit parte integrantă a antrenamentului LLM, dar are mai multe dezavantaje, la care modelele de bază pre-antrenate excelează. Această lucrare examinează modul de valorificare a beneficiilor ambelor lumi și de dezvoltare a sistemelor AI adaptabile.
Ei propun generarea comutatorului, în care mai multe puncte de control ale modelului sunt selectate dinamic pentru generare. Experimentele cu 8 linii de bază de colaborare și 18 seturi de date demonstrează că abordările de colaborare a modelelor depășesc toate modelele individuale pe 16 din 18 seturi de date.
Cum învățarea prin întărire după predicția următorului token facilitează învățarea Lucrarea studiază modul în care modelele autoregresive reușesc să provoce sarcini de predicție urmând această rețetă de antrenament (predicție next-token urmată de învățare prin întărire).
Pentru experimente, ei presupun că datele de pre-antrenament conțin demonstrații rare pentru o sarcină de interes. Pe baza acestui lucru, ei explică: - Dificultate de generalizare în timpul pre-antrenamentului - Cum RL duce la o îmbunătățire rapidă - Ce duce la răspunsuri mai lungi?
Urmăriți-ne @ritualdigest pentru mai multe despre toate lucrurile legate de cercetarea crypto x AI și @ritualnet să aflați mai multe despre ce construiește Ritual.
578