1兆規模の思考モデルのためのRLのスケーリング RLのスケーリングは難しい!しかし、このチームは何かを理解したかもしれません。 彼らは、トークンごとに~50Bのパラメータがアクティブな1TパラメータのMoE推論モデルであるRing-1Tを導入しています。 これは、長い CoT SFT フェーズ、検証可能な報酬推論 RL フェーズ、そして一般的な RLHF フェーズでトレーニングされ、1 兆規模の RL を実際に実行するための 3 つの要素が導入されています。 - アップデートを安定させる IcePop - トークン予算内でGPUをビジー状態に保つためのC3PO++ - ハイスループットRLスタックを統合するASystem ベンチマークでは、AIME-25、HMMT-25、ARC-AGI-1、LiveCodeBench、CodeForces、ArenaHard v2 でオープンウェイトをリードしています。 IMO-2025では、自然言語推論のみを使用して銀メダルレベルに達しました。