Escalando RL para o Modelo de Pensamento em Escala de Trilhão Escalar RL é difícil! Mas esta equipe pode ter descoberto algo. Eles introduzem o Ring-1T, um modelo de raciocínio MoE com 1T de parâmetros e ~50B de parâmetros ativos por token. É treinado com uma fase de SFT de longo-CoT, uma fase de raciocínio RL com recompensas verificáveis, e depois uma fase geral de RLHF, e introduz três componentes que fazem o RL em escala de trilhão realmente funcionar: - IcePop para estabilizar atualizações - C3PO++ para manter as GPUs ocupadas dentro de um orçamento de tokens - ASystem para unificar a pilha de RL de alto rendimento Nos benchmarks, lidera pesos abertos no AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces, e ArenaHard v2. Alcança o nível de medalha de prata no IMO-2025 usando apenas raciocínio em linguagem natural.