熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
這是本週的儀式研究摘要,一份涵蓋LLM世界和加密與AI交集最新動態的通訊。
每週有數百篇論文發表,跟上最新動態幾乎是不可能的。我們為您閱讀,所以您無需這樣做。

低機率代幣在強化學習中的探索中維持可驗證的獎勵
本文發現,推理模型的瓶頸可能源於低機率探索代幣的消除(他們稱之為推理火花)。

他們引入了 Lp-Reg 來通過正則化保護有價值的低概率代幣。Lp-Reg 首先丟棄噪聲低概率代幣,然後在剩餘候選者之間重新分配概率質量。
在 Qwen3-14B 上的 5 個數學基準測試中,他們提高了 2.66%。

關於溫度取樣在測試時間縮放中的作用
最近測試時間縮放(TTS)的擴展使得 Pass@k 增加到 1024,但我們是否已經達到了 TTS 性能的上限?這篇論文通過溫度取樣顯示,我們可以進一步擴展 TTS。

這些論文顯示,溫度可以成為測試時縮放的新維度。通過對 Qwen3(0.6B、1.7B、4B、8B)和五個基準的實驗,溫度縮放在單一溫度 TTS 上提高了 7.3 分。他們還設計了一種高效的 T-縮放方法。


DiffuSpec:為投機解碼解鎖擴散語言模型
擴散模型作為投機解碼的草擬者非常合適,因為每步的標記提議吞吐量更高,且提議質量更強。

然而,擴散模型在因果對齊和草稿長度方面存在問題。
為了解決這些問題,本文提出了DiffuSpec,一種無需訓練的方法。在各種任務中,它提供了高達3倍的實時計算加速,超越了其他無需訓練的基準。

通過生成不同可讀性難度的合成數據,他們發現可讀性並不是小型語言模型中一致性的關鍵。
他們的研究結果表明,統計簡單性是小型語言模型可學習性的更強預測指標。

關注我們 @ritualdigest 獲取有關加密貨幣與 AI 研究的更多資訊,並且
@ritualnet 了解 Ritual 正在構建的內容。
1.47K
熱門
排行
收藏