Scalarea RL pentru modelul de gândire la scară de trilioane Scalarea RL este dificilă! Dar această echipă s-ar putea să-și fi dat seama de ceva. Ei introduc Ring-1T, un model de raționament MoE cu parametru 1T cu ~50B parametri activi pe token. Este antrenat cu o fază SFT CoT lungă, o fază RL de raționament cu recompense verificabile, apoi o fază RLHF generală și introduce trei piese care fac RL la scară de trilioane să ruleze efectiv: - IcePop pentru stabilizarea actualizărilor - C3PO++ pentru a menține GPU-urile ocupate cu un buget token - ASystem pentru unificarea stivei RL cu randament ridicat În ceea ce privește benchmark-urile, conduce greutățile deschise pe AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces și ArenaHard v2. Atinge nivelul medaliei de argint la IMO-2025 folosind doar raționamentul în limbaj natural.