熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
這是本週的儀式研究摘要,一份涵蓋LLM世界和加密與AI交集最新動態的通訊。
每週有數百篇論文發表,跟上最新動態幾乎是不可能的。我們為您閱讀,所以您無需這樣做。

並非所有位元都是平等的:針對推理模型的規模依賴記憶優化策略
作者探討了推理模型的記憶壓縮原則。他們考慮了模型大小、精度、生成長度和KV快取壓縮。

他們問:在固定的記憶預算下,如何平衡各種因素以最大化推理任務的準確性?
在 AIME 和 GPQA-Diamond 上對 Qwen3 系列進行了超過 1700 次實驗。他們發現沒有通用的策略,但有針對特定大小的建議。

大規模強化學習計算的藝術
這項工作探討了強化學習擴展的科學,並開發了 ScaleRL,這是一個隨計算量可預測擴展的配方。該設計基於對 400,000 GPU 小時的強化學習擴展的實證研究。

他們找到了三個關鍵原則:
• 強化學習的性能上限並非普遍適用
• 苦澀的教訓同樣適用於強化學習
• 被認為能改善峰值性能的常見干預措施主要是調整計算效率,而並未顯著改變性能上限。

大型語言模型會出現「腦腐」嗎?
這篇論文研究大型語言模型是否會出現腦腐,即如果在垃圾網頁文本上訓練,是否會對大型語言模型造成持久的認知衰退?
他們通過從社交媒體(Twitter/X)構建數據集,利用兩個垃圾指標進行實驗。

清潔數據集與垃圾數據集之間的比較基準顯示,垃圾干預與推理、長期記憶和倫理規範的認知衰退相關。
隨著 M1 垃圾干預,LLM 的黑暗人格浮現,帶來了重大的安全隱患。


不要丟棄你的預訓練模型
對齊/RL已成為LLM訓練的核心,但也有幾個缺點,而預訓練的基礎模型在這方面表現出色。本文探討如何利用兩者的優勢,開發可適應的AI系統。

他們提出了切換生成(Switch Generation),在此過程中,動態選擇多個模型檢查點進行生成。
對8個合作基準和18個數據集的實驗表明,模型合作方法在18個數據集中的16個上超越了所有單一模型。


如何在下一個標記預測後進行強化學習促進學習
本文研究了自回歸模型如何通過遵循這一訓練配方(下一個標記預測隨後進行強化學習)在具有挑戰性的預測任務中取得成功。

在實驗中,他們假設預訓練數據包含了對於感興趣任務的稀有示範。
基於此,他們解釋:
- 預訓練期間的泛化困難
- 強化學習如何導致快速改善
- 什麼導致更長的回應?

關注我們 @ritualdigest 獲取有關加密貨幣與 AI 研究的更多資訊,並且
@ritualnet 了解 Ritual 正在構建的內容。
460
熱門
排行
收藏