🚀 Bytedance Seedで私たちの仕事を共有できることを嬉しく思います! ナップザック RL: 予算配分🎒による LLM の探索のロック解除 LLM トレーニングでの探求は重要ですが、費用がかかります。 ロールアウトの割り当てを均一に行うと、無駄になります。 ✅ 簡単なタスク→常に0勾配→解決されます ❌ 困難なタスク→常に 0 勾配→失敗する 💡 私たちの考え方は、探査をナップザックの問題として扱い→最も重要な場所にロールアウトを割り当てることです。 ✨ 業績: 🔼 ゼロ以外のグラデーション+20–40%増加 🧮 ハードタスク用の最大 93 のロールアウト (追加のコンピューティングなし) 📈 +2–4 平均ポイント、数学ベンチマークでのピークゲイン +9 💰 ~2× 均一な割り当てよりも安い 📄 紙: