Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Schaalvergroting van RL voor Trillion-Scale Thinking Model
Schaalvergroting van RL is moeilijk! Maar dit team lijkt iets te hebben ontdekt.
Ze introduceren Ring-1T, een 1T-parameter MoE redeneermodel met ~50B actieve parameters per token.
Het is getraind met een lange-CoT SFT-fase, een verifieerbare-beloningen redeneer-RL-fase, en vervolgens een algemene RLHF-fase, en introduceert drie onderdelen die trillion-scale RL daadwerkelijk laten draaien:
- IcePop om updates te stabiliseren
- C3PO++ om GPU's bezig te houden onder een tokenbudget
- ASystem om de high-throughput RL-stack te verenigen
Op benchmarks leidt het open gewichten op AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces, en ArenaHard v2.
Het bereikt zilveren medaille-niveau op IMO-2025 met alleen natuurlijke-taal redeneervaardigheden.

Boven
Positie
Favorieten