Масштабирование RL для модели мышления триллионного масштаба Масштабирование RL сложно! Но эта команда, возможно, что-то придумала. Они представляют Ring-1T, модель рассуждений MoE с 1T параметрами, с ~50B активными параметрами на токен. Она обучается с помощью долгой фазы SFT CoT, фазы рассуждений RL с проверяемыми наградами, а затем фазы общего RLHF, и вводит три элемента, которые позволяют триллионному масштабу RL действительно работать: - IcePop для стабилизации обновлений - C3PO++ для поддержания загрузки GPU в рамках бюджета токенов - ASystem для унификации стека RL с высокой пропускной способностью На бенчмарках она лидирует среди открытых весов на AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces и ArenaHard v2. Она достигает уровня серебряной медали на IMO-2025, используя только рассуждения на естественном языке.