Ecco il Digest di Ricerca Rituale di questa settimana, una newsletter che copre le ultime novità nel mondo dei LLM e l'intersezione tra Crypto e AI. Con centinaia di articoli pubblicati settimanalmente, rimanere aggiornati con le ultime novità è impossibile. Noi facciamo la lettura così non dovete farlo voi.
Questo documento pone le seguenti domande: Cosa verificare? Come verificare? E perché verificare del tutto? Si scopre che il valore della verifica dipende dal non avere un'applicazione eccessivamente rigida che scarta soluzioni ragionevoli, mentre ignorare del tutto la verifica consente a dati di bassa qualità di dominare.
Variazione nella Verifica: Comprendere le Dinamiche di Verifica nei Modelli di Linguaggio di Grandi Dimensioni Il documento studia i fattori che influenzano il successo della verifica in base a - difficoltà del problema - capacità di generazione dei generatori - capacità di generazione dei verificatori.
Scoprono che: - I verificatori sono più propensi a riconoscere soluzioni corrette su problemi facili - Gli errori commessi da generatori deboli sono più facili da rilevare rispetto a quelli commessi da generatori forti - La capacità di generazione del verificatore è correlata con le prestazioni in relazione alla difficoltà del problema.
Apprendimento per rinforzo su dati di pre-addestramento Il documento propone RLPT, che scala l'apprendimento per rinforzo sui dati di pre-addestramento. Propongono un obiettivo di ragionamento sul segmento successivo che premia i LLM per la previsione corretta del segmento successivo dato il contesto precedente.
Esperimenti estesi su ragionamento generale e matematico mostrano che RLPT migliora sostanzialmente le prestazioni e presenta una tendenza di scalabilità favorevole, e dimostrano ulteriormente che RLPT fornisce una solida base per il successivo RLVR.
ARE: Scalare gli Ambienti e le Valutazioni degli Agenti Questo documento propone gli Ambienti di Ricerca Meta Agenti (ARE), una piattaforma che supporta le orchestrazioni, la creazione di ambienti e la connessione di app per lo sviluppo e la valutazione degli agenti.
Il documento introduce anche Gaia2, una valutazione per agenti. Gaia2 è composto da 1.120 scenari verificabili e annotati che si svolgono in un ambiente Mobile, mimando uno smartphone con app come email, messaggistica e calendario. Scoprono che gpt-5 ha le migliori prestazioni.
Seguici su @ritualdigest per ulteriori informazioni su tutto ciò che riguarda la ricerca crypto x AI, e @ritualnet per saperne di più su cosa sta costruendo Ritual.
7,2K