Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Scalare RL per un Modello di Pensiero su Trillioni di Scale
Scalare RL è difficile! Ma questo team potrebbe aver trovato qualcosa.
Introducono Ring-1T, un modello di ragionamento MoE con 1T di parametri e ~50B di parametri attivi per token.
È addestrato con una fase SFT a lungo-CoT, una fase di ragionamento RL con ricompense verificabili, e poi una fase generale di RLHF, e introduce tre elementi che rendono possibile l'esecuzione di RL su scala trilionaria:
- IcePop per stabilizzare gli aggiornamenti
- C3PO++ per mantenere le GPU occupate sotto un budget di token
- ASystem per unificare lo stack RL ad alta capacità
Nei benchmark, guida i pesi aperti su AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces e ArenaHard v2.
Raggiunge il livello di medaglia d'argento su IMO-2025 utilizzando solo ragionamento in linguaggio naturale.

Principali
Ranking
Preferiti