一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

这是本周的仪式研究摘要，一份涵盖LLM世界和加密与AI交集最新动态的通讯。每周有数百篇论文发表，跟上最新动态几乎是不可能的。我们为您阅读，所以您无需这样做。

并非所有比特都是平等的：针对推理模型的规模依赖内存优化策略作者研究了推理模型的内存压缩原理。他们考虑了模型大小、精度、生成长度和KV缓存压缩。

他们问：在固定的内存预算下，如何平衡各个因素以最大化推理任务的准确性？在 AIME 和 GPQA-Diamond 上对 Qwen3 系列进行了超过 1700 次实验。他们发现没有通用策略，但他们有针对特定规模的建议。

大规模强化学习计算的艺术这项工作探讨了强化学习扩展的科学，并开发了 ScaleRL，这是一种与计算资源可预测地扩展的配方。该设计基于对 400,000 GPU 小时的强化学习扩展的实证研究。

他们发现三个关键原则： • 强化学习的性能上限并非普遍适用 • 苦涩的教训同样适用于强化学习 • 认为可以提高峰值性能的常见干预措施主要是调整计算效率，而并未显著改变性能上限。

大型语言模型会得“脑腐烂”吗！本文研究大型语言模型是否会得脑腐烂，即如果在垃圾网页文本上进行训练，是否会导致大型语言模型的认知能力持续下降？他们通过从社交媒体（Twitter/X）构建数据集，利用两种垃圾指标进行实验。

对比清洁数据集和垃圾数据集的基准测试表明，垃圾干预与推理、长时记忆和伦理规范的认知下降相关。 LLMs的黑暗个性在M1垃圾干预中显现，带来了显著的安全隐患。

不要丢弃你的预训练模型对齐/强化学习已成为大型语言模型训练的核心，但也存在一些缺点，而预训练基础模型在这方面表现出色。本文探讨如何利用两者的优势，开发可适应的AI系统。

他们提出了切换生成（Switch Generation），在该方法中，多个模型检查点会动态选择用于生成。在8个协作基线和18个数据集的实验中，模型协作方法在18个数据集中的16个上超越了所有单个模型。

如何通过下一个标记预测后的强化学习促进学习本文研究了自回归模型如何通过遵循这一训练方案（下一个标记预测后接强化学习）在具有挑战性的预测任务中取得成功。

在实验中，他们假设预训练数据包含了某个感兴趣任务的稀有示例。基于此，他们解释了： - 预训练期间的泛化难度 - 强化学习如何导致快速改进 - 什么导致更长的响应？

关注我们 @ritualdigest，获取更多关于加密货币与 AI 研究的内容，以及 @ritualnet，了解 Ritual 正在构建的内容。

461

热门

排行

收藏