Scalare RL per un Modello di Pensiero su Trillioni di Scale Scalare RL è difficile! Ma questo team potrebbe aver trovato qualcosa. Introducono Ring-1T, un modello di ragionamento MoE con 1T di parametri e ~50B di parametri attivi per token. È addestrato con una fase SFT a lungo-CoT, una fase di ragionamento RL con ricompense verificabili, e poi una fase generale di RLHF, e introduce tre elementi che rendono possibile l'esecuzione di RL su scala trilionaria: - IcePop per stabilizzare gli aggiornamenti - C3PO++ per mantenere le GPU occupate sotto un budget di token - ASystem per unificare lo stack RL ad alta capacità Nei benchmark, guida i pesi aperti su AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces e ArenaHard v2. Raggiunge il livello di medaglia d'argento su IMO-2025 utilizzando solo ragionamento in linguaggio naturale.