这是本周的仪式研究摘要,一份涵盖LLM世界和加密与AI交集最新动态的通讯。 每周有数百篇论文发表,跟上最新动态几乎是不可能的。我们为您阅读,所以您无需这样做。
低概率代币在可验证奖励的强化学习探索中维持探索 本文发现,推理模型的瓶颈可能源于低概率探索代币的消除(他们称之为推理火花)。
他们引入了 Lp-Reg 来通过正则化保护有价值的低概率代币。Lp-Reg 首先丢弃嘈杂的低概率代币,然后在剩余候选者之间重新分配概率质量。 在 Qwen3-14B 上的 5 个数学基准测试中,他们提高了 2.66%。
关于温度采样在测试时间缩放中的作用 最近,测试时间缩放(TTS)的扩展将 Pass@k 提高到了 1024,但我们是否已经达到了 TTS 性能的上限?论文通过温度采样表明,我们可以进一步扩展 TTS。
研究表明,温度可以成为测试时缩放的新维度。通过对 Qwen3(0.6B、1.7B、4B、8B)和五个基准的实验,温度缩放比单温度 TTS 提高了 7.3 分。他们还设计了一种高效的 T-缩放方法。
DiffuSpec:为投机解码解锁扩散语言模型 作为投机解码的草拟者,扩散模型非常适合,因为它们在每一步的令牌提议吞吐量更高,且提议质量更强。
然而,扩散模型存在因果对齐和草稿长度相关的问题。 为了解决这些问题,本文提出了DiffuSpec,这是一种无训练的方法。在各种任务中,它提供了高达3倍的实际速度提升,超越了其他无训练的基准。
通过生成不同可读性难度的合成数据,他们发现可读性并不是小型语言模型中连贯性的关键。 他们的研究结果表明,统计简单性是小型语言模型可学习性的更强预测因素。
关注我们 @ritualdigest,获取更多关于加密货币与 AI 研究的内容, 以及 @ritualnet,了解 Ritual 正在构建的内容。
1.47K