热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
这是本周的仪式研究摘要,一份涵盖LLM世界和加密与AI交集最新动态的通讯。
每周有数百篇论文发表,跟上最新动态几乎是不可能的。我们为您阅读,所以您无需这样做。

低概率代币在可验证奖励的强化学习探索中维持探索
本文发现,推理模型的瓶颈可能源于低概率探索代币的消除(他们称之为推理火花)。

他们引入了 Lp-Reg 来通过正则化保护有价值的低概率代币。Lp-Reg 首先丢弃嘈杂的低概率代币,然后在剩余候选者之间重新分配概率质量。
在 Qwen3-14B 上的 5 个数学基准测试中,他们提高了 2.66%。

关于温度采样在测试时间缩放中的作用
最近,测试时间缩放(TTS)的扩展将 Pass@k 提高到了 1024,但我们是否已经达到了 TTS 性能的上限?论文通过温度采样表明,我们可以进一步扩展 TTS。

研究表明,温度可以成为测试时缩放的新维度。通过对 Qwen3(0.6B、1.7B、4B、8B)和五个基准的实验,温度缩放比单温度 TTS 提高了 7.3 分。他们还设计了一种高效的 T-缩放方法。


DiffuSpec:为投机解码解锁扩散语言模型
作为投机解码的草拟者,扩散模型非常适合,因为它们在每一步的令牌提议吞吐量更高,且提议质量更强。

然而,扩散模型存在因果对齐和草稿长度相关的问题。
为了解决这些问题,本文提出了DiffuSpec,这是一种无训练的方法。在各种任务中,它提供了高达3倍的实际速度提升,超越了其他无训练的基准。

通过生成不同可读性难度的合成数据,他们发现可读性并不是小型语言模型中连贯性的关键。
他们的研究结果表明,统计简单性是小型语言模型可学习性的更强预测因素。

关注我们 @ritualdigest,获取更多关于加密货币与 AI 研究的内容,
以及 @ritualnet,了解 Ritual 正在构建的内容。
1.47K
热门
排行
收藏