Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Escalando RL para un Modelo de Pensamiento a Escala de Trillones
¡Escalar RL es difícil! Pero este equipo podría haber encontrado algo.
Introducen Ring-1T, un modelo de razonamiento MoE de 1T parámetros con ~50B parámetros activos por token.
Se entrena con una fase de SFT de largo-CoT, una fase de razonamiento RL de recompensas verificables, y luego una fase general de RLHF, e introduce tres elementos que hacen que RL a escala de trillones funcione realmente:
- IcePop para estabilizar actualizaciones
- C3PO++ para mantener las GPUs ocupadas bajo un presupuesto de tokens
- ASystem para unificar la pila de RL de alto rendimiento
En los benchmarks, lidera con pesos abiertos en AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces y ArenaHard v2.
Alcanza el nivel de medalla de plata en IMO-2025 utilizando solo razonamiento en lenguaje natural.

Parte superior
Clasificación
Favoritos