Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Empolgado para compartilhar nosso trabalho na Bytedance Seed!
Knapsack RL: Desbloqueando a Exploração de LLMs via Alocação de Orçamento 🎒
A exploração no treinamento de LLM é crucial, mas cara.
A alocação uniforme de rollouts é desperdício:
✅ Tarefas fáceis → sempre resolvidas → 0 gradiente
❌ Tarefas difíceis → sempre falham → 0 gradiente
💡 Nossa ideia: tratar a exploração como um problema de mochila → alocar rollouts onde eles importam mais.
✨ Resultados:
🔼 +20–40% mais gradientes não nulos
🧮 Até 93 rollouts para tarefas difíceis (sem computação extra)
📈 +2–4 pontos em média, +9 ganhos máximos em benchmarks de matemática
💰 ~2× mais barato do que a alocação uniforme
📄 Artigo:


Top
Classificação
Favoritos