热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
扩展RL以应对万亿规模思维模型
扩展RL很难!但这个团队可能找到了某种解决方案。
他们推出了Ring-1T,一个具有1T参数的MoE推理模型,每个token大约激活50B参数。
它经过了长CoT SFT阶段的训练,接着是可验证奖励推理的RL阶段,然后是一般的RLHF阶段,并引入了三个使万亿规模RL实际运行的组件:
- IcePop用于稳定更新
- C3PO++在token预算下保持GPU忙碌
- ASystem统一高吞吐量的RL堆栈
在基准测试中,它在AIME-25、HMMT-25、ARC-AGI-1、LiveCodeBench、CodeForces和ArenaHard v2上领先开放权重。
在IMO-2025上仅使用自然语言推理就达到了银牌水平。

热门
排行
收藏