Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Рад поделиться нашей работой в Bytedance Seed!
Knapsack RL: Разблокировка исследования LLM через распределение бюджета 🎒
Исследование в обучении LLM имеет решающее значение, но дорого.
Равномерное распределение роллов неэффективно:
✅ Легкие задачи → всегда решены → 0 градиент
❌ Сложные задачи → всегда провалены → 0 градиент
💡 Наша идея: рассматривать исследование как задачу о рюкзаке → распределять роллы там, где это имеет наибольшее значение.
✨ Результаты:
🔼 +20–40% больше ненулевых градиентов
🧮 До 93 роллов для сложных задач (без дополнительных вычислений)
📈 +2–4 средних балла, +9 пиковых приростов на математических тестах
💰 ~2× дешевле, чем равномерное распределение
📄 Статья:


Топ
Рейтинг
Избранное