Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Escalando RL para un modelo de pensamiento a escala de billones
¡Escalar RL es difícil! Pero este equipo podría haber descubierto algo.
Presentan Ring-1T, un modelo de razonamiento MoE de 1T parámetro con ~ 50 mil millones de parámetros activos por token.
Se entrena con una fase SFT de CoT a largo plazo, una fase de RL de razonamiento de recompensas verificables, luego una fase general de RLHF, e introduce tres piezas que hacen que RL a escala de billones realmente funcione:
- IcePop para estabilizar las actualizaciones
- C3PO++ para mantener las GPU ocupadas con un presupuesto de tokens
- ASystem para unificar la pila de RL de alto rendimiento
En los puntos de referencia, lidera los pesos abiertos en AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces y ArenaHard v2.
Alcanza el nivel de medalla de plata en IMO-2025 utilizando solo el razonamiento del lenguaje natural.

Populares
Ranking
Favoritas