Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Шкалювання РЛ для моделі мислення трильйонного масштабу
Масштабувати RL складно! Але ця команда, можливо, щось з'ясувала.
Вони представляють Ring-1T, модель міркування MoE з 1T-параметром з ~50B активними параметрами на токен.
Він тренується за допомогою фази SFT довгого CoT, фази RL міркувань з перевіреною винагородою, потім загальної фази RLHF і вводить три частини, які фактично виконують RL трильйонного масштабу:
- IcePop для стабілізації оновлень
- C3PO++ для зайнятості графічних процесорів в умовах бюджету на токени
- ASystem для уніфікації стека RL з високою пропускною здатністю
На бенчмарках він лідирує у відкритих вагах на AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces та ArenaHard v2.
Він досягає срібної медалі на IMO-2025, використовуючи лише міркування природною мовою.

Найкращі
Рейтинг
Вибране