Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Škálování RL pro model myšlení v bilionovém měřítku
Škálování RL je obtížné! Ale tento tým možná na něco přišel.
Představují Ring-1T, 1T-parametrový model uvažování MoE s ~50B aktivními parametry na token.
Je trénován s dlouhou fází CoT SFT, fází RL uvažování o ověřitelných odměnách, poté obecnou fází RLHF a představuje tři části, díky nimž RL v bilionovém měřítku skutečně běží:
- IcePop pro stabilizaci aktualizací
- C3PO++ pro udržení provozu GPU pod tokenovým rozpočtem
- ASystem pro sjednocení vysoce výkonného RL stacku
V benchmarcích vede v otevřených vahách na AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces a ArenaHard v2.
Na IMO-2025 dosahuje úrovně stříbrné medaile pouze za použití uvažování v přirozeném jazyce.

Top
Hodnocení
Oblíbené