Risultati del Modello di Ricorsione Piccola (TRM) su ARC-AGI - ARC-AGI-1: 40%, $1.76/task - ARC-AGI-2: 6.2%, $2.10/task Grazie a @jm_alexia per aver contribuito al TRM, una ricerca ben scritta, open source e approfondita per la comunità basata sull'HRM di @makingAGI
Grazie a @k_schuerholt per aver riprodotto questi risultati per il premio ARC, basati sulla sua precedente analisi HRM. I nostri checkpoint del modello riprodotto e le istruzioni per la riproduzione sono disponibili su @huggingface
Le nostre note: - TRM ha un tempo di esecuzione più lungo rispetto a HRM anche se è più piccolo. La nostra ipotesi è che ciò sia dovuto alla retropropagazione che avviene in tutti i passaggi, mentre HRM ha eseguito solo passaggi parziali. Domanda aperta: È TRM migliore perché è più intelligente? O perché si allena più a lungo? Se utilizzassi un calcolo fisso per entrambi, le prestazioni sarebbero le stesse?
- È TRM altrettanto robusto rispetto al numero di aumenti come lo era HRM? - Passare da strati lineari all'attenzione è interessante, l'attenzione ha performato peggio in un compito più piccolo. Perché? Potrebbe essere computazionalmente meno efficiente, ma perché è così tanto peggio su Maze?
La nostra chiamata per la comunità: separare il pre-addestramento e l'inferenza in TRM Attualmente, il pre-addestramento e l'inferenza sono accoppiati in TRM. Ulteriori lotti di compiti devono essere pre-addestrati nuovamente. Questo TRM potenziato sarebbe probabilmente in grado di funzionare su Kaggle per il premio ARC 2025
Costi per la riproduzione: * ARC-AGI-1 Pubblico: 9h 52m 6 * 2x8H100 * $8/ora = $157.86 * ARC-AGI-1 Semi-privato: 11h 23m * 2x8H100 * $8/ora = $176.38 * ARC-AGI-1 Pubblico: 9h 35m * 3x8H100 * $8/ora = $216.58 * ARC-AGI-2 Semi-privato: 10h 30m * 3x8H100 * $8/ora = $252
253,61K