熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
微型遞迴模型 (TRM) 在 ARC-AGI 上的結果
- ARC-AGI-1: 40%,每個任務 $1.76
- ARC-AGI-2: 6.2%,每個任務 $2.10
感謝 @jm_alexia 為社群貢獻 TRM,這是一份撰寫良好、開源且全面的研究,基於 @makingAGI 的 HRM

感謝 @k_schuerholt 為 ARC Prize 重現這些結果,這些結果是基於他之前的 HRM 分析
我們重現的模型檢查點和重現指令可在 @huggingface 獲得
我們的筆記:
- TRM 的運行時間比 HRM 更長,即使它的規模較小。我們的假設是這是因為反向傳播在所有步驟中發生,而 HRM 只進行了部分步驟。
開放問題:TRM 是因為更聰明而更好嗎?還是因為訓練時間更長?如果對兩者都使用固定計算,性能會相同嗎?
- TRM 在增強數量上是否與 HRM 一樣穩健?
- 從線性層切換到注意力層很有趣,但在較小的任務上,注意力的表現卻更差。為什麼?
這可能在計算上效率較低,但為什麼在 Maze 上表現會差那麼多?
我們對社區的呼籲:在 TRM 中分開預訓練和推理
目前,預訓練和推理在 TRM 中是耦合的。需要再次對額外的任務批次進行預訓練。
這個增強的 TRM 可能能夠在 Kaggle 上運行,以參加 2025 年 ARC 獎。
重製成本:
* ARC-AGI-1 公開:9小時52分鐘6 * 2x8H100 * 每小時$8 = $157.86
* ARC-AGI-1 半公開:11小時23分鐘 * 2x8H100 * 每小時$8 = $176.38
* ARC-AGI-1 公開:9小時35分鐘 * 3x8H100 * 每小時$8 = $216.58
* ARC-AGI-2 半公開:10小時30分鐘 * 3x8H100 * 每小時$8 = $252
253.61K
熱門
排行
收藏