DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Resultaten van het Tiny Recursion Model (TRM) op ARC-AGI - ARC-AGI-1: 40%, $1.76/task - ARC-AGI-2: 6.2%, $2.10/task Bedankt aan @jm_alexia voor het bijdragen aan TRM, een goed geschreven, open source en grondig onderzoek voor de gemeenschap gebaseerd op de HRM van @makingAGI

Bedankt aan @k_schuerholt voor het reproduceren van deze resultaten voor de ARC Prize, die gebaseerd waren op zijn eerdere HRM-analyse Onze gereproduceerde model-checkpoints en reproductie-instructies zijn beschikbaar op @huggingface

Onze aantekeningen: - TRM heeft een hogere runtime dan HRM, ook al is het kleiner. Onze hypothese is dat dit komt door backpropagation die over alle stappen plaatsvindt, terwijl HRM alleen gedeeltelijke stappen deed. Open vraag: Is TRM beter omdat het slimmer is? Of omdat het langer traint? Als je vaste rekentijd voor beide zou gebruiken, zou de prestatie dan hetzelfde zijn?

- Is TRM net zo robuust ten opzichte van het aantal augmentaties als HRM was? - De overstap van lineaire lagen naar aandacht is interessant, aandacht presteerde slechter op een kleinere taak. Waarom? Het kan computationeel minder efficiënt zijn, maar waarom is het zoveel slechter op Maze?

Onze oproep aan de gemeenschap: Splits Pre-training en inferentie in TRM Momenteel zijn pre-training en inferentie gekoppeld in TRM. Extra batches van taken moeten opnieuw worden voorgetraind. Deze uitgebreide TRM zou waarschijnlijk kunnen draaien op Kaggle voor de ARC Prize 2025

Kosten om te reproduceren: * ARC-AGI-1 Publiek: 9u 52m 6 * 2x8H100 * $8/uur = $157,86 * ARC-AGI-1 Semi-publiek: 11u 23m * 2x8H100 * $8/uur = $176,38 * ARC-AGI-1 Publiek: 9u 35m * 3x8H100 * $8/uur = $216,58 * ARC-AGI-2 Semi-publiek: 10u 30m * 3x8H100 * $8/uur = $252

253,62K

Boven

Positie

Favorieten