热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
🚀 很高兴分享我们在字节跳动种子项目的工作!
Knapsack RL:通过预算分配解锁 LLM 的探索 🎒
在 LLM 训练中,探索至关重要但成本高昂。
均匀的投放分配是浪费:
✅ 简单任务 → 总是解决 → 0 梯度
❌ 难任务 → 总是失败 → 0 梯度
💡 我们的想法:将探索视为一个背包问题 → 在最重要的地方分配投放。
✨ 结果:
🔼 +20–40% 更多非零梯度
🧮 对于难任务最多可进行 93 次投放(无需额外计算)
📈 数学基准测试平均提高 2–4 分,峰值提升 9 分
💰 比均匀分配便宜约 2 倍
📄 论文:


热门
排行
收藏