Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Z radością dzielimy się naszą pracą w Bytedance Seed!
Knapsack RL: Odblokowanie eksploracji LLM-ów poprzez alokację budżetu 🎒
Eksploracja w treningu LLM jest kluczowa, ale kosztowna.
Jednorodna alokacja rolloutów jest marnotrawstwem:
✅ Łatwe zadania → zawsze rozwiązane → 0 gradient
❌ Trudne zadania → zawsze nieudane → 0 gradient
💡 Nasz pomysł: traktować eksplorację jako problem plecaka → alokować rollouty tam, gdzie mają największe znaczenie.
✨ Wyniki:
🔼 +20–40% więcej gradientów różnicowych
🧮 Do 93 rolloutów dla trudnych zadań (bez dodatkowych obliczeń)
📈 +2–4 średnie punkty, +9 szczytowych zysków w benchmarkach matematycznych
💰 ~2× tańsze niż jednorodna alokacja
📄 Artykuł:


Najlepsze
Ranking
Ulubione