Iată Ritual Research Digest din această săptămână, un buletin informativ care acoperă cele mai recente noutăți din lumea LLM-urilor și intersecția dintre Crypto x AI. Cu sute de lucrări publicate săptămânal, este imposibil să rămânem la curent cu cele mai recente. Noi citim ca să nu trebuiască să o faceți.
Această lucrare întreabă: Ce să verificați? Cum se verifică? Și de ce să verificăm? Ei constată că valoarea verificării depinde de lipsa unei aplicări prea rigide care să renunțe la soluții rezonabile, în timp ce ignorarea verificării permite datelor de calitate scăzută să domine.
Variația în verificare: înțelegerea dinamicii de verificare în modelele lingvistice mari Lucrarea studiază factorii care influențează succesul verificării - dificultatea problemei - capacitatea de generare a generatoarelor - capacitatea de generare a verificatorilor.
Ei constată că: - Verificatorii sunt mai predispuși să recunoască soluțiile corecte la probleme ușoare - Erorile făcute de generatoarele slabe sunt mai ușor de detectat decât cele făcute de generatoarele puternice - Capacitatea de generare a verificatorului se corelează cu performanța într-o problemă de dificultate.
Învățare prin întărire pe date de pre-antrenament Lucrarea propune RLPT, care scalează RL pe baza datelor de pre-antrenament. Ei propun un obiectiv de raționament al segmentului următor care recompensează LLM-urile pentru prezicerea corectă a segmentului următor în contextul precedent.
Experimente extinse pe domeniul general și raționamentul matematic arată că RLPT îmbunătățește substanțial performanța și prezintă o tendință favorabilă de scalare.
ARE: Scalarea mediilor de agent și evaluări Această lucrare propune Meta Agents Research Environments (ARE), o platformă care acceptă orchestrații, crearea de medii și conectarea aplicațiilor pentru dezvoltarea și evaluarea agenților.
Lucrarea introduce și Gaia2, o evaluare pentru agenți. Gaia2 este compus din 1.120 de scenarii verificabile, adnotate, care au loc într-un mediu mobil, imitând un smartphone cu aplicații precum e-mail, mesagerie și calendar. Ei consideră că gpt-5 high are cele mai bune performanțe.
Urmăriți-ne @ritualdigest pentru mai multe despre toate lucrurile legate de cercetarea crypto x AI și @ritualnet să aflați mai multe despre ce construiește Ritual.
7,22K