微型遞迴模型 (TRM) 在 ARC-AGI 上的結果 - ARC-AGI-1: 40%,每個任務 $1.76 - ARC-AGI-2: 6.2%,每個任務 $2.10 感謝 @jm_alexia 為社群貢獻 TRM,這是一份撰寫良好、開源且全面的研究,基於 @makingAGI 的 HRM
感謝 @k_schuerholt 為 ARC Prize 重現這些結果,這些結果是基於他之前的 HRM 分析 我們重現的模型檢查點和重現指令可在 @huggingface 獲得
我們的筆記: - TRM 的運行時間比 HRM 更長,即使它的規模較小。我們的假設是這是因為反向傳播在所有步驟中發生,而 HRM 只進行了部分步驟。 開放問題:TRM 是因為更聰明而更好嗎?還是因為訓練時間更長?如果對兩者都使用固定計算,性能會相同嗎?
- TRM 在增強數量上是否與 HRM 一樣穩健? - 從線性層切換到注意力層很有趣,但在較小的任務上,注意力的表現卻更差。為什麼? 這可能在計算上效率較低,但為什麼在 Maze 上表現會差那麼多?
我們對社區的呼籲:在 TRM 中分開預訓練和推理 目前,預訓練和推理在 TRM 中是耦合的。需要再次對額外的任務批次進行預訓練。 這個增強的 TRM 可能能夠在 Kaggle 上運行,以參加 2025 年 ARC 獎。
重製成本: * ARC-AGI-1 公開:9小時52分鐘6 * 2x8H100 * 每小時$8 = $157.86 * ARC-AGI-1 半公開:11小時23分鐘 * 2x8H100 * 每小時$8 = $176.38 * ARC-AGI-1 公開:9小時35分鐘 * 3x8H100 * 每小時$8 = $216.58 * ARC-AGI-2 半公開:10小時30分鐘 * 3x8H100 * 每小時$8 = $252
253.61K