Skalning av RL för tänkande modell i biljonskala Att skala RL är svårt! Men det här teamet kan ha kommit på något. De introducerar Ring-1T, en 1T-parameter MoE-resonemangsmodell med ~50B params aktiva per token. Den tränas med en lång CoT SFT-fas, en RL-fas som resonerar med verifierbara belöningar, sedan en allmän RLHF-fas och introducerar tre delar som gör att RL i biljonskala faktiskt körs: - IcePop för att stabilisera uppdateringar - C3PO++ för att hålla GPU:er sysselsatta under en tokenbudget - ASystem för att förena RL-stack med hög genomströmning På benchmarks leder den öppna vikter på AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces och ArenaHard v2. Den når silvermedaljnivå på IMO-2025 med enbart naturligt språkresonemang.