扩展RL以应对万亿规模思维模型 扩展RL很难!但这个团队可能找到了某种解决方案。 他们推出了Ring-1T,一个具有1T参数的MoE推理模型,每个token大约激活50B参数。 它经过了长CoT SFT阶段的训练,接着是可验证奖励推理的RL阶段,然后是一般的RLHF阶段,并引入了三个使万亿规模RL实际运行的组件: - IcePop用于稳定更新 - C3PO++在token预算下保持GPU忙碌 - ASystem统一高吞吐量的RL堆栈 在基准测试中,它在AIME-25、HMMT-25、ARC-AGI-1、LiveCodeBench、CodeForces和ArenaHard v2上领先开放权重。 在IMO-2025上仅使用自然语言推理就达到了银牌水平。