Skalowanie RL dla modelu myślenia na skali bilionowej Skalowanie RL jest trudne! Ale ten zespół może mieć coś do powiedzenia. Wprowadzają Ring-1T, model rozumowania MoE z 1T parametrami, z aktywnymi ~50B parametrami na token. Jest trenowany w fazie długiego-CoT SFT, fazie rozumowania RL z weryfikowalnymi nagrodami, a następnie w ogólnej fazie RLHF, i wprowadza trzy elementy, które sprawiają, że RL na skali bilionowej naprawdę działa: - IcePop, aby stabilizować aktualizacje - C3PO++, aby utrzymać GPU zajęte w ramach budżetu tokenów - ASystem, aby zjednoczyć stos RL o wysokiej przepustowości Na benchmarkach prowadzi otwarte wagi na AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces i ArenaHard v2. Osiąga poziom srebrnego medalu na IMO-2025, używając tylko rozumowania w naturalnym języku.