這項賭注在於建立一個持續學習系統。這意味著什麼?Cursor 的更新是一個有效的範例。新的數據進來,系統知道如何過濾出最有價值的樣本。然後,它利用強化學習/其他算法來部署使用這些數據訓練的檢查點。
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari2025年8月23日
我們介紹了一種更好的方法來收集使用GRPO後的訓練數據。向專家收集樣本是昂貴的,註釋預算有限。哪些示例實際上值得支付?我們發現,專注於困難樣本可以帶來30-40%的改善。 1/7
每個組件都必須仔細研究,以建立一個能夠運行此系統的元算法。在訓練過程中,它可以根據早期跡象評估是否繼續或停止運行。為此,來自數百次運行的見解被消化進入這樣的系統。
這項工作開始了這個過程,用於解決具有可驗證獎勵的推理問題。因為這是建立簡單學習管道的最 "穩定" 環境。下一個前沿將是 LLM 作為裁判和長期、延遲獎勵設置。
802