Шкалювання РЛ для моделі мислення трильйонного масштабу Масштабувати RL складно! Але ця команда, можливо, щось з'ясувала. Вони представляють Ring-1T, модель міркування MoE з 1T-параметром з ~50B активними параметрами на токен. Він тренується за допомогою фази SFT довгого CoT, фази RL міркувань з перевіреною винагородою, потім загальної фази RLHF і вводить три частини, які фактично виконують RL трильйонного масштабу: - IcePop для стабілізації оновлень - C3PO++ для зайнятості графічних процесорів в умовах бюджету на токени - ASystem для уніфікації стека RL з високою пропускною здатністю На бенчмарках він лідирує у відкритих вагах на AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces та ArenaHard v2. Він досягає срібної медалі на IMO-2025, використовуючи лише міркування природною мовою.