擴展 RL 以應對萬億規模思維模型 擴展 RL 是一件困難的事情!但這個團隊可能找到了某種解決方案。 他們推出了 Ring-1T,一個擁有 1T 參數的 MoE 推理模型,每個標記活躍約 50B 參數。 它經過長期的 CoT SFT 階段訓練,然後是可驗證獎勵推理的 RL 階段,接著是一般的 RLHF 階段,並引入了三個使萬億規模 RL 實際運行的組件: - IcePop 用於穩定更新 - C3PO++ 用於在標記預算下保持 GPU 忙碌 - ASystem 用於統一高吞吐量的 RL 堆棧 在基準測試中,它在 AIME-25、HMMT-25、ARC-AGI-1、LiveCodeBench、CodeForces 和 ArenaHard v2 上領先開放權重。 它在 IMO-2025 上達到銀牌水平,僅使用自然語言推理。