Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Skalowanie RL dla modelu myślenia na skali bilionowej
Skalowanie RL jest trudne! Ale ten zespół może mieć coś do powiedzenia.
Wprowadzają Ring-1T, model rozumowania MoE z 1T parametrami, z aktywnymi ~50B parametrami na token.
Jest trenowany w fazie długiego-CoT SFT, fazie rozumowania RL z weryfikowalnymi nagrodami, a następnie w ogólnej fazie RLHF, i wprowadza trzy elementy, które sprawiają, że RL na skali bilionowej naprawdę działa:
- IcePop, aby stabilizować aktualizacje
- C3PO++, aby utrzymać GPU zajęte w ramach budżetu tokenów
- ASystem, aby zjednoczyć stos RL o wysokiej przepustowości
Na benchmarkach prowadzi otwarte wagi na AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces i ArenaHard v2.
Osiąga poziom srebrnego medalu na IMO-2025, używając tylko rozumowania w naturalnym języku.

Najlepsze
Ranking
Ulubione