ARC-AGIでのTiny Recursion Model(TRM)の結果 - ARC-AGI-1: 40%、1.76 ドル/タスク - ARC-AGI-2: 6.2%、2.10 ドル/タスク @makingAGI の HRM に基づいて、よく書かれたオープンソースの徹底的な調査である TRM をコミュニティに提供してくださった @jm_alexia に感謝します
ARC Prizeのためにこれらの結果を再現してくださった@k_schuerholtに感謝します。 当社の複製モデルチェックポイントと複製説明書は、@huggingfaceで入手できます
私たちのメモ: - TRM は小さいにもかかわらず、HRM よりも実行時間が長くなります。私たちの仮説は、これはすべてのステップで逆伝播が発生しているのに対し、HRMは部分的なステップしか行わなかったためであるというものです 未解決の質問: TRM はより賢いから優れていますか?それともトレーニング時間が長くなるからでしょうか?両方に固定コンピューティングを使用した場合、パフォーマンスは同じでしょうか?
- TRMはHRMと同様に拡張回数に対して堅牢ですか? - 線形レイヤーからアテンションへの切り替えは興味深いですが、小さなタスクではアテンションのパフォーマンスが悪くなります。なぜでしょうか。 計算効率は低いかもしれませんが、Maze ではなぜそれほど悪いのでしょうか?
コミュニティへの呼びかけ: TRM での事前トレーニングと推論の分割 現在、事前トレーニングと推論はTRMで結合されています。タスクの追加バッチは、再度事前トレーニングする必要があります。 この拡張されたTRMは、ARC Prize 2025のKaggleで実行できる可能性があります
再現コスト: * ARC-AGI-1 パブリック: 9 時間 52 分 6 * 2x8H100 * 8 ドル/時間 = 157.86 ドル * ARC-AGI-1 セミプライベート: 11 時間 23 分* 2x8 時間 100 * 8 ドル/時間 = 176.38 ドル * ARC-AGI-1 パブリック: 9 時間 35 分 * 3x8H100 * 8 ドル/時間 = 216.58 ドル * ARC-AGI-2 セミプライベート: 10 時間 30 分 * 3x8 時間 100 * 8 ドル/時間 = 252 ドル
253.61K