一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

這是本週的儀式研究摘要，一份涵蓋LLM世界和加密與AI交集最新動態的通訊。每週有數百篇論文發表，跟上最新動態幾乎是不可能的。我們為您閱讀，所以您無需這樣做。

並非所有位元都是平等的：針對推理模型的規模依賴記憶優化策略作者探討了推理模型的記憶壓縮原則。他們考慮了模型大小、精度、生成長度和KV快取壓縮。

他們問：在固定的記憶預算下，如何平衡各種因素以最大化推理任務的準確性？在 AIME 和 GPQA-Diamond 上對 Qwen3 系列進行了超過 1700 次實驗。他們發現沒有通用的策略，但有針對特定大小的建議。

大規模強化學習計算的藝術這項工作探討了強化學習擴展的科學，並開發了 ScaleRL，這是一個隨計算量可預測擴展的配方。該設計基於對 400,000 GPU 小時的強化學習擴展的實證研究。

他們找到了三個關鍵原則： • 強化學習的性能上限並非普遍適用 • 苦澀的教訓同樣適用於強化學習 • 被認為能改善峰值性能的常見干預措施主要是調整計算效率，而並未顯著改變性能上限。

大型語言模型會出現「腦腐」嗎？這篇論文研究大型語言模型是否會出現腦腐，即如果在垃圾網頁文本上訓練，是否會對大型語言模型造成持久的認知衰退？他們通過從社交媒體（Twitter/X）構建數據集，利用兩個垃圾指標進行實驗。

清潔數據集與垃圾數據集之間的比較基準顯示，垃圾干預與推理、長期記憶和倫理規範的認知衰退相關。隨著 M1 垃圾干預，LLM 的黑暗人格浮現，帶來了重大的安全隱患。

不要丟棄你的預訓練模型對齊/RL已成為LLM訓練的核心，但也有幾個缺點，而預訓練的基礎模型在這方面表現出色。本文探討如何利用兩者的優勢，開發可適應的AI系統。

他們提出了切換生成（Switch Generation），在此過程中，動態選擇多個模型檢查點進行生成。對8個合作基準和18個數據集的實驗表明，模型合作方法在18個數據集中的16個上超越了所有單一模型。

如何在下一個標記預測後進行強化學習促進學習本文研究了自回歸模型如何通過遵循這一訓練配方（下一個標記預測隨後進行強化學習）在具有挑戰性的預測任務中取得成功。

在實驗中，他們假設預訓練數據包含了對於感興趣任務的稀有示範。基於此，他們解釋： - 預訓練期間的泛化困難 - 強化學習如何導致快速改善 - 什麼導致更長的回應？

關注我們 @ritualdigest 獲取有關加密貨幣與 AI 研究的更多資訊，並且 @ritualnet 了解 Ritual 正在構建的內容。

460

熱門

排行

收藏