Mise à l'échelle de l'IA par renforcement pour un modèle de pensée à l'échelle des trillions Mise à l'échelle de l'IA par renforcement est difficile ! Mais cette équipe a peut-être trouvé quelque chose. Ils introduisent Ring-1T, un modèle de raisonnement MoE à 1T paramètres avec ~50B paramètres actifs par token. Il est entraîné avec une phase SFT longue-CoT, une phase de raisonnement RL avec récompenses vérifiables, puis une phase générale RLHF, et introduit trois éléments qui permettent à l'IA par renforcement à l'échelle des trillions de fonctionner réellement : - IcePop pour stabiliser les mises à jour - C3PO++ pour garder les GPU occupés sous un budget de tokens - ASystem pour unifier la pile RL à haut débit Sur les benchmarks, il mène les poids ouverts sur AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces, et ArenaHard v2. Il atteint un niveau de médaille d'argent sur IMO-2025 en utilisant uniquement le raisonnement en langage naturel.