🚀 很高興能分享我們在 Bytedance Seed 的工作! Knapsack RL:通過預算分配解鎖 LLM 的探索 🎒 在 LLM 訓練中的探索至關重要,但成本高昂。 均勻的推出分配是浪費: ✅ 簡單任務 → 總是解決 → 0 梯度 ❌ 難任務 → 總是失敗 → 0 梯度 💡 我們的想法:將探索視為一個背包問題 → 在最重要的地方分配推出。 ✨ 結果: 🔼 +20–40% 更多非零梯度 🧮 對於難任務最多可達 93 次推出(無需額外計算) 📈 整體平均提高 2–4 分,數學基準測試峰值增益 +9 💰 比均勻分配便宜約 2 倍 📄 論文: