Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Scalarea RL pentru modelul de gândire la scară de trilioane
Scalarea RL este dificilă! Dar această echipă s-ar putea să-și fi dat seama de ceva.
Ei introduc Ring-1T, un model de raționament MoE cu parametru 1T cu ~50B parametri activi pe token.
Este antrenat cu o fază SFT CoT lungă, o fază RL de raționament cu recompense verificabile, apoi o fază RLHF generală și introduce trei piese care fac RL la scară de trilioane să ruleze efectiv:
- IcePop pentru stabilizarea actualizărilor
- C3PO++ pentru a menține GPU-urile ocupate cu un buget token
- ASystem pentru unificarea stivei RL cu randament ridicat
În ceea ce privește benchmark-urile, conduce greutățile deschise pe AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces și ArenaHard v2.
Atinge nivelul medaliei de argint la IMO-2025 folosind doar raționamentul în limbaj natural.

Limită superioară
Clasament
Favorite