Skalierung von RL für Trillionen-Skalierungs-Denkmodelle Die Skalierung von RL ist schwierig! Aber dieses Team könnte etwas herausgefunden haben. Sie stellen Ring-1T vor, ein 1T-Parameter MoE-Reasoning-Modell mit ~50B aktiven Parametern pro Token. Es wird mit einer langen CoT-SFT-Phase, einer verifizierbaren Belohnungs-Reasoning-RL-Phase und dann einer allgemeinen RLHF-Phase trainiert und führt drei Komponenten ein, die die Trillionen-Skalierung von RL tatsächlich ermöglichen: - IcePop zur Stabilisierung von Updates - C3PO++, um GPUs unter einem Token-Budget beschäftigt zu halten - ASystem zur Vereinheitlichung des Hochdurchsatz-RL-Stacks In Benchmarks führt es bei offenen Gewichten auf AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces und ArenaHard v2. Es erreicht Silbermedaille-Niveau bei IMO-2025, indem es nur natürliche Sprach-Reasoning verwendet.