Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Animado para compartilhar nosso trabalho na Bytedance Seed!
Knapsack RL: Desbloqueando a exploração de LLMs por meio de alocação 🎒 de orçamento
A exploração no treinamento LLM é crucial, mas cara.
A alocação de distribuição uniforme é um desperdício:
✅ Tarefas fáceis → sempre resolvidas → 0 gradiente
❌ Tarefas difíceis → sempre falham → 0 gradiente
💡 Nossa ideia: tratar a exploração como um problema costal → alocar lançamentos onde eles são mais importantes.
✨ Resultados:
🔼 +20–40% mais gradientes diferentes de zero
🧮 Até 93 implementações para tarefas difíceis (sem computação extra)
📈 +2–4 pontos médios, +9 ganhos máximos em benchmarks matemáticos
💰 ~ 2× mais barato do que a alocação uniforme
📄 Papel:


Melhores
Classificação
Favoritos