トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1兆規模の思考モデルのためのRLのスケーリング
RLのスケーリングは難しい!しかし、このチームは何かを理解したかもしれません。
彼らは、トークンごとに~50Bのパラメータがアクティブな1TパラメータのMoE推論モデルであるRing-1Tを導入しています。
これは、長い CoT SFT フェーズ、検証可能な報酬推論 RL フェーズ、そして一般的な RLHF フェーズでトレーニングされ、1 兆規模の RL を実際に実行するための 3 つの要素が導入されています。
- アップデートを安定させる IcePop
- トークン予算内でGPUをビジー状態に保つためのC3PO++
- ハイスループットRLスタックを統合するASystem
ベンチマークでは、AIME-25、HMMT-25、ARC-AGI-1、LiveCodeBench、CodeForces、ArenaHard v2 でオープンウェイトをリードしています。
IMO-2025では、自然言語推論のみを使用して銀メダルレベルに達しました。

トップ
ランキング
お気に入り