熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
擴展 RL 以應對萬億規模思維模型
擴展 RL 是一件困難的事情!但這個團隊可能找到了某種解決方案。
他們推出了 Ring-1T,一個擁有 1T 參數的 MoE 推理模型,每個標記活躍約 50B 參數。
它經過長期的 CoT SFT 階段訓練,然後是可驗證獎勵推理的 RL 階段,接著是一般的 RLHF 階段,並引入了三個使萬億規模 RL 實際運行的組件:
- IcePop 用於穩定更新
- C3PO++ 用於在標記預算下保持 GPU 忙碌
- ASystem 用於統一高吞吐量的 RL 堆棧
在基準測試中,它在 AIME-25、HMMT-25、ARC-AGI-1、LiveCodeBench、CodeForces 和 ArenaHard v2 上領先開放權重。
它在 IMO-2025 上達到銀牌水平,僅使用自然語言推理。

熱門
排行
收藏