🚀 Z radością dzielimy się naszą pracą w Bytedance Seed! Knapsack RL: Odblokowanie eksploracji LLM-ów poprzez alokację budżetu 🎒 Eksploracja w treningu LLM jest kluczowa, ale kosztowna. Jednorodna alokacja rolloutów jest marnotrawstwem: ✅ Łatwe zadania → zawsze rozwiązane → 0 gradient ❌ Trudne zadania → zawsze nieudane → 0 gradient 💡 Nasz pomysł: traktować eksplorację jako problem plecaka → alokować rollouty tam, gdzie mają największe znaczenie. ✨ Wyniki: 🔼 +20–40% więcej gradientów różnicowych 🧮 Do 93 rolloutów dla trudnych zadań (bez dodatkowych obliczeń) 📈 +2–4 średnie punkty, +9 szczytowych zysków w benchmarkach matematycznych 💰 ~2× tańsze niż jednorodna alokacja 📄 Artykuł: