Ecco il Digest di Ricerca Rituale di questa settimana, una newsletter che copre le ultime novità nel mondo dei LLM e l'intersezione tra Crypto e AI. Con centinaia di articoli pubblicati settimanalmente, rimanere aggiornati con le ultime novità è impossibile. Noi facciamo la lettura così non dovete farlo voi.
Non tutti i bit sono uguali: strategie di ottimizzazione della memoria dipendenti dalla scala per modelli di ragionamento Gli autori indagano i principi della compressione della memoria per modelli di ragionamento. Considerano la dimensione del modello, la precisione, la lunghezza del gen e la compressione della cache KV.
Chiedono: Con un budget di memoria fisso, qual è l'equilibrio dei fattori per massimizzare l'accuratezza nei compiti di ragionamento? Oltre 1700 esperimenti sulla famiglia Qwen3 su AIME e GPQA-Diamond. Scoprono che non esiste una strategia universale, ma hanno raccomandazioni specifiche per le dimensioni.
L'arte di scalare il calcolo del Reinforcement Learning per LLM Questo lavoro esplora la scienza della scalabilità del RL e sviluppa ScaleRL, una ricetta che scala in modo prevedibile con il calcolo. Il design è basato su uno studio empirico della scalabilità del RL su 400.000 ore GPU.
Trovano tre principi chiave: • I limiti di prestazione dell'RL non sono universali • La lezione amara si applica anche all'RL • Gli interventi comuni ritenuti in grado di migliorare le prestazioni di picco regolano principalmente l'efficienza computazionale, senza modificare considerevolmente il limite di prestazione.
I LLM possono avere "Brain Rot"! Questo documento studia se i LLM possono avere il Brain rot, cioè se addestrati su testi web spazzatura, subiscono un declino cognitivo duraturo nei LLM? Sperimentano costruendo dataset dai social media (Twitter/X) tramite le due metriche di spazzatura.
Il benchmarking comparativo tra dataset puliti e spazzatura mostra che l'intervento spazzatura è associato a declini cognitivi nel ragionamento, nel lungo contesto e nelle norme etiche. Le personalità oscure dei LLM emergono con l'intervento spazzatura M1, sollevando significative preoccupazioni per la sicurezza.
Non gettare via il tuo modello pre-addestrato L'allineamento/RL è diventato fondamentale per l'addestramento degli LLM, ma presenta diversi svantaggi, nei quali i modelli di base pre-addestrati eccellono. Questo documento esamina come sfruttare i benefici di entrambi i mondi e sviluppare sistemi AI adattabili.
Propongono la Switch Generation, dove più checkpoint di modelli vengono selezionati dinamicamente per la generazione. Esperimenti con 8 baseline di collaborazione e 18 dataset dimostrano che gli approcci di collaborazione tra modelli superano tutti i modelli individuali in 16 su 18 dataset.
Come l'Apprendimento per Rinforzo Dopo la Predizione del Prossimo Token Facilita l'Apprendimento Il documento studia come i modelli autoregressivi riescano in compiti di predizione impegnativi seguendo questa ricetta di addestramento (predizione del prossimo token seguita da apprendimento per rinforzo).
Per esperimenti, si presume che i dati di pre-addestramento contengano dimostrazioni rare per un compito di interesse. Basandosi su questo, spiegano: - Difficoltà di generalizzazione durante il pre-addestramento - Come l'RL porta a un miglioramento rapido - Cosa porta a risposte più lunghe?
Seguici su @ritualdigest per ulteriori informazioni su tutto ciò che riguarda la ricerca crypto x AI, e @ritualnet per saperne di più su cosa sta costruendo Ritual.
461