這是本週的儀式研究摘要,一份涵蓋LLM世界和加密與AI交集最新動態的通訊。 每週有數百篇論文發表,跟上最新動態幾乎是不可能的。我們為您閱讀,所以您無需這樣做。
這篇論文提出了以下問題:該驗證什麼?如何驗證?以及為什麼要驗證? 他們發現,驗證的價值取決於不過於僵化的執行,以免排除合理的解決方案,而完全忽視驗證則會使低質量數據主導。
驗證的變化:理解大型語言模型中的驗證動態 本文研究影響驗證成功的因素,包括 - 問題難度 - 生成器的生成能力 - 驗證器的生成能力。
他們發現: - 驗證者在簡單問題上更容易識別正確的解決方案 - 弱生成器所犯的錯誤比強生成器所犯的錯誤更容易被檢測到 - 驗證者的生成能力與問題難度的表現相關。
在預訓練數據上的強化學習 這篇論文提出了RLPT,該方法在預訓練數據上擴展了強化學習。他們提出了一個下一段推理目標,該目標獎勵大型語言模型(LLMs)在給定前文上下文的情況下正確預測下一段。
在一般領域和數學推理上的廣泛實驗顯示,RLPT 顯著提高了性能並展現出良好的擴展趨勢,進一步證明 RLPT 為後續的 RLVR 提供了堅實的基礎。
ARE:擴展代理環境和評估 本文提出了元代理研究環境(ARE),這是一個支持編排、環境創建和應用程序連接的平台,用於代理的開發和評估。
這篇論文還介紹了 Gaia2,這是一個針對代理的評估。Gaia2 由 1,120 個可驗證的註釋場景組成,這些場景發生在移動環境中,模擬了具有電子郵件、消息和日曆等應用的智能手機。他們發現 gpt-5 的表現最佳。
關注我們 @ritualdigest 獲取有關加密貨幣與 AI 研究的更多資訊,並且 @ritualnet 了解 Ritual 正在構建的內容。
7.2K