Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Enthousiast om ons werk bij Bytedance Seed te delen!
Knapsack RL: Ontgrendeling van verkenning van LLM's via budgetallocatie 🎒
Verkenning in LLM-training is cruciaal maar kostbaar.
Uniforme rolloutallocatie is verspilling:
✅ Gemakkelijke taken → altijd opgelost → 0 gradient
❌ Moeilijke taken → altijd mislukt → 0 gradient
💡 Ons idee: beschouw verkenning als een knapsackprobleem → allocate rollouts waar ze het meest nodig zijn.
✨ Resultaten:
🔼 +20–40% meer niet-nul gradients
🧮 Tot 93 rollouts voor moeilijke taken (zonder extra rekenkracht)
📈 +2–4 gemiddelde punten, +9 piekwinsten op wiskundige benchmarks
💰 ~2× goedkoper dan uniforme allocatie
📄 Paper:


Boven
Positie
Favorieten