🚀 很高兴分享我们在字节跳动种子项目的工作! Knapsack RL:通过预算分配解锁 LLM 的探索 🎒 在 LLM 训练中,探索至关重要但成本高昂。 均匀的投放分配是浪费: ✅ 简单任务 → 总是解决 → 0 梯度 ❌ 难任务 → 总是失败 → 0 梯度 💡 我们的想法:将探索视为一个背包问题 → 在最重要的地方分配投放。 ✨ 结果: 🔼 +20–40% 更多非零梯度 🧮 对于难任务最多可进行 93 次投放(无需额外计算) 📈 数学基准测试平均提高 2–4 分,峰值提升 9 分 💰 比均匀分配便宜约 2 倍 📄 论文: