🚀 Excité de partager notre travail chez Bytedance Seed ! Knapsack RL : Débloquer l'exploration des LLM via l'allocation de budget 🎒 L'exploration dans l'entraînement des LLM est cruciale mais coûteuse. L'allocation uniforme des rollouts est inefficace : ✅ Tâches faciles → toujours résolues → 0 gradient ❌ Tâches difficiles → toujours échouées → 0 gradient 💡 Notre idée : traiter l'exploration comme un problème de sac à dos → allouer les rollouts là où ils comptent le plus. ✨ Résultats : 🔼 +20–40 % de gradients non nuls en plus 🧮 Jusqu'à 93 rollouts pour les tâches difficiles (sans calcul supplémentaire) 📈 +2–4 points en moyenne, +9 gains maximaux sur les benchmarks mathématiques 💰 ~2× moins cher que l'allocation uniforme 📄 Article :