🚀 Enthousiast om ons werk bij Bytedance Seed te delen! Knapsack RL: Ontgrendeling van verkenning van LLM's via budgetallocatie 🎒 Verkenning in LLM-training is cruciaal maar kostbaar. Uniforme rolloutallocatie is verspilling: ✅ Gemakkelijke taken → altijd opgelost → 0 gradient ❌ Moeilijke taken → altijd mislukt → 0 gradient 💡 Ons idee: beschouw verkenning als een knapsackprobleem → allocate rollouts waar ze het meest nodig zijn. ✨ Resultaten: 🔼 +20–40% meer niet-nul gradients 🧮 Tot 93 rollouts voor moeilijke taken (zonder extra rekenkracht) 📈 +2–4 gemiddelde punten, +9 piekwinsten op wiskundige benchmarks 💰 ~2× goedkoper dan uniforme allocatie 📄 Paper: