一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

扩展RL以应对万亿规模思维模型扩展RL很难！但这个团队可能找到了某种解决方案。他们推出了Ring-1T，一个具有1T参数的MoE推理模型，每个token大约激活50B参数。它经过了长CoT SFT阶段的训练，接着是可验证奖励推理的RL阶段，然后是一般的RLHF阶段，并引入了三个使万亿规模RL实际运行的组件： - IcePop用于稳定更新 - C3PO++在token预算下保持GPU忙碌 - ASystem统一高吞吐量的RL堆栈在基准测试中，它在AIME-25、HMMT-25、ARC-AGI-1、LiveCodeBench、CodeForces和ArenaHard v2上领先开放权重。在IMO-2025上仅使用自然语言推理就达到了银牌水平。