一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

🚀 很高兴分享我们在字节跳动种子项目的工作！ Knapsack RL：通过预算分配解锁 LLM 的探索 🎒 在 LLM 训练中，探索至关重要但成本高昂。均匀的投放分配是浪费： ✅ 简单任务 → 总是解决 → 0 梯度 ❌ 难任务 → 总是失败 → 0 梯度 💡 我们的想法：将探索视为一个背包问题 → 在最重要的地方分配投放。 ✨ 结果： 🔼 +20–40% 更多非零梯度 🧮 对于难任务最多可进行 93 次投放（无需额外计算） 📈 数学基准测试平均提高 2–4 分，峰值提升 9 分 💰 比均匀分配便宜约 2 倍 📄 论文：