Escalando RL para un modelo de pensamiento a escala de billones ¡Escalar RL es difícil! Pero este equipo podría haber descubierto algo. Presentan Ring-1T, un modelo de razonamiento MoE de 1T parámetro con ~ 50 mil millones de parámetros activos por token. Se entrena con una fase SFT de CoT a largo plazo, una fase de RL de razonamiento de recompensas verificables, luego una fase general de RLHF, e introduce tres piezas que hacen que RL a escala de billones realmente funcione: - IcePop para estabilizar las actualizaciones - C3PO++ para mantener las GPU ocupadas con un presupuesto de tokens - ASystem para unificar la pila de RL de alto rendimiento En los puntos de referencia, lidera los pesos abiertos en AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces y ArenaHard v2. Alcanza el nivel de medalla de plata en IMO-2025 utilizando solo el razonamiento del lenguaje natural.