这是本周的仪式研究摘要,一份涵盖LLM世界和加密与AI交集最新动态的通讯。 每周有数百篇论文发表,跟上最新动态几乎是不可能的。我们为您阅读,所以您无需这样做。
并非所有比特都是平等的:针对推理模型的规模依赖内存优化策略 作者研究了推理模型的内存压缩原理。他们考虑了模型大小、精度、生成长度和KV缓存压缩。
他们问:在固定的内存预算下,如何平衡各个因素以最大化推理任务的准确性? 在 AIME 和 GPQA-Diamond 上对 Qwen3 系列进行了超过 1700 次实验。他们发现没有通用策略,但他们有针对特定规模的建议。
大规模强化学习计算的艺术 这项工作探讨了强化学习扩展的科学,并开发了 ScaleRL,这是一种与计算资源可预测地扩展的配方。该设计基于对 400,000 GPU 小时的强化学习扩展的实证研究。
他们发现三个关键原则: • 强化学习的性能上限并非普遍适用 • 苦涩的教训同样适用于强化学习 • 认为可以提高峰值性能的常见干预措施主要是调整计算效率,而并未显著改变性能上限。
大型语言模型会得“脑腐烂”吗! 本文研究大型语言模型是否会得脑腐烂,即如果在垃圾网页文本上进行训练,是否会导致大型语言模型的认知能力持续下降? 他们通过从社交媒体(Twitter/X)构建数据集,利用两种垃圾指标进行实验。
对比清洁数据集和垃圾数据集的基准测试表明,垃圾干预与推理、长时记忆和伦理规范的认知下降相关。 LLMs的黑暗个性在M1垃圾干预中显现,带来了显著的安全隐患。
不要丢弃你的预训练模型 对齐/强化学习已成为大型语言模型训练的核心,但也存在一些缺点,而预训练基础模型在这方面表现出色。本文探讨如何利用两者的优势,开发可适应的AI系统。
他们提出了切换生成(Switch Generation),在该方法中,多个模型检查点会动态选择用于生成。 在8个协作基线和18个数据集的实验中,模型协作方法在18个数据集中的16个上超越了所有单个模型。
如何通过下一个标记预测后的强化学习促进学习 本文研究了自回归模型如何通过遵循这一训练方案(下一个标记预测后接强化学习)在具有挑战性的预测任务中取得成功。
在实验中,他们假设预训练数据包含了某个感兴趣任务的稀有示例。 基于此,他们解释了: - 预训练期间的泛化难度 - 强化学习如何导致快速改进 - 什么导致更长的响应?
关注我们 @ritualdigest,获取更多关于加密货币与 AI 研究的内容, 以及 @ritualnet,了解 Ritual 正在构建的内容。
461