Schaalvergroting van RL voor Trillion-Scale Thinking Model Schaalvergroting van RL is moeilijk! Maar dit team lijkt iets te hebben ontdekt. Ze introduceren Ring-1T, een 1T-parameter MoE redeneermodel met ~50B actieve parameters per token. Het is getraind met een lange-CoT SFT-fase, een verifieerbare-beloningen redeneer-RL-fase, en vervolgens een algemene RLHF-fase, en introduceert drie onderdelen die trillion-scale RL daadwerkelijk laten draaien: - IcePop om updates te stabiliseren - C3PO++ om GPU's bezig te houden onder een tokenbudget - ASystem om de high-throughput RL-stack te verenigen Op benchmarks leidt het open gewichten op AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces, en ArenaHard v2. Het bereikt zilveren medaille-niveau op IMO-2025 met alleen natuurlijke-taal redeneervaardigheden.