🚀 ¡Emocionado de compartir nuestro trabajo en Bytedance Seed! Knapsack RL: Desbloqueando la Exploración de LLMs a través de la Asignación de Presupuesto 🎒 La exploración en el entrenamiento de LLM es crucial pero costosa. La asignación uniforme de rollouts es derrochadora: ✅ Tareas fáciles → siempre resueltas → 0 gradiente ❌ Tareas difíciles → siempre fallan → 0 gradiente 💡 Nuestra idea: tratar la exploración como un problema de mochila → asignar rollouts donde más importan. ✨ Resultados: 🔼 +20–40% más gradientes no nulos 🧮 Hasta 93 rollouts para tareas difíciles (sin computación extra) 📈 +2–4 puntos de promedio, +9 picos de ganancias en benchmarks matemáticos 💰 ~2× más barato que la asignación uniforme 📄 Artículo: