🚀 Animado para compartilhar nosso trabalho na Bytedance Seed! Knapsack RL: Desbloqueando a exploração de LLMs por meio de alocação 🎒 de orçamento A exploração no treinamento LLM é crucial, mas cara. A alocação de distribuição uniforme é um desperdício: ✅ Tarefas fáceis → sempre resolvidas → 0 gradiente ❌ Tarefas difíceis → sempre falham → 0 gradiente 💡 Nossa ideia: tratar a exploração como um problema costal → alocar lançamentos onde eles são mais importantes. ✨ Resultados: 🔼 +20–40% mais gradientes diferentes de zero 🧮 Até 93 implementações para tarefas difíceis (sem computação extra) 📈 +2–4 pontos médios, +9 ganhos máximos em benchmarks matemáticos 💰 ~ 2× mais barato do que a alocação uniforme 📄 Papel: