一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

擴展 RL 以應對萬億規模思維模型擴展 RL 是一件困難的事情！但這個團隊可能找到了某種解決方案。他們推出了 Ring-1T，一個擁有 1T 參數的 MoE 推理模型，每個標記活躍約 50B 參數。它經過長期的 CoT SFT 階段訓練，然後是可驗證獎勵推理的 RL 階段，接著是一般的 RLHF 階段，並引入了三個使萬億規模 RL 實際運行的組件： - IcePop 用於穩定更新 - C3PO++ 用於在標記預算下保持 GPU 忙碌 - ASystem 用於統一高吞吐量的 RL 堆棧在基準測試中，它在 AIME-25、HMMT-25、ARC-AGI-1、LiveCodeBench、CodeForces 和 ArenaHard v2 上領先開放權重。它在 IMO-2025 上達到銀牌水平，僅使用自然語言推理。