Škálování RL pro model myšlení v bilionovém měřítku Škálování RL je obtížné! Ale tento tým možná na něco přišel. Představují Ring-1T, 1T-parametrový model uvažování MoE s ~50B aktivními parametry na token. Je trénován s dlouhou fází CoT SFT, fází RL uvažování o ověřitelných odměnách, poté obecnou fází RLHF a představuje tři části, díky nimž RL v bilionovém měřítku skutečně běží: - IcePop pro stabilizaci aktualizací - C3PO++ pro udržení provozu GPU pod tokenovým rozpočtem - ASystem pro sjednocení vysoce výkonného RL stacku V benchmarcích vede v otevřených vahách na AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces a ArenaHard v2. Na IMO-2025 dosahuje úrovně stříbrné medaile pouze za použití uvažování v přirozeném jazyce.