Escalando RL para un Modelo de Pensamiento a Escala de Trillones ¡Escalar RL es difícil! Pero este equipo podría haber encontrado algo. Introducen Ring-1T, un modelo de razonamiento MoE de 1T parámetros con ~50B parámetros activos por token. Se entrena con una fase de SFT de largo-CoT, una fase de razonamiento RL de recompensas verificables, y luego una fase general de RLHF, e introduce tres elementos que hacen que RL a escala de trillones funcione realmente: - IcePop para estabilizar actualizaciones - C3PO++ para mantener las GPUs ocupadas bajo un presupuesto de tokens - ASystem para unificar la pila de RL de alto rendimiento En los benchmarks, lidera con pesos abiertos en AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces y ArenaHard v2. Alcanza el nivel de medalla de plata en IMO-2025 utilizando solo razonamiento en lenguaje natural.