這是本週的儀式研究摘要,一份涵蓋LLM世界和加密與AI交集最新動態的通訊。 每週有數百篇論文發表,跟上最新動態幾乎是不可能的。我們為您閱讀,所以您無需這樣做。
並非所有位元都是平等的:針對推理模型的規模依賴記憶優化策略 作者探討了推理模型的記憶壓縮原則。他們考慮了模型大小、精度、生成長度和KV快取壓縮。
他們問:在固定的記憶預算下,如何平衡各種因素以最大化推理任務的準確性? 在 AIME 和 GPQA-Diamond 上對 Qwen3 系列進行了超過 1700 次實驗。他們發現沒有通用的策略,但有針對特定大小的建議。
大規模強化學習計算的藝術 這項工作探討了強化學習擴展的科學,並開發了 ScaleRL,這是一個隨計算量可預測擴展的配方。該設計基於對 400,000 GPU 小時的強化學習擴展的實證研究。
他們找到了三個關鍵原則: • 強化學習的性能上限並非普遍適用 • 苦澀的教訓同樣適用於強化學習 • 被認為能改善峰值性能的常見干預措施主要是調整計算效率,而並未顯著改變性能上限。
大型語言模型會出現「腦腐」嗎? 這篇論文研究大型語言模型是否會出現腦腐,即如果在垃圾網頁文本上訓練,是否會對大型語言模型造成持久的認知衰退? 他們通過從社交媒體(Twitter/X)構建數據集,利用兩個垃圾指標進行實驗。
清潔數據集與垃圾數據集之間的比較基準顯示,垃圾干預與推理、長期記憶和倫理規範的認知衰退相關。 隨著 M1 垃圾干預,LLM 的黑暗人格浮現,帶來了重大的安全隱患。
不要丟棄你的預訓練模型 對齊/RL已成為LLM訓練的核心,但也有幾個缺點,而預訓練的基礎模型在這方面表現出色。本文探討如何利用兩者的優勢,開發可適應的AI系統。
他們提出了切換生成(Switch Generation),在此過程中,動態選擇多個模型檢查點進行生成。 對8個合作基準和18個數據集的實驗表明,模型合作方法在18個數據集中的16個上超越了所有單一模型。
如何在下一個標記預測後進行強化學習促進學習 本文研究了自回歸模型如何通過遵循這一訓練配方(下一個標記預測隨後進行強化學習)在具有挑戰性的預測任務中取得成功。
在實驗中,他們假設預訓練數據包含了對於感興趣任務的稀有示範。 基於此,他們解釋: - 預訓練期間的泛化困難 - 強化學習如何導致快速改善 - 什麼導致更長的回應?
關注我們 @ritualdigest 獲取有關加密貨幣與 AI 研究的更多資訊,並且 @ritualnet 了解 Ritual 正在構建的內容。
460