Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Skalning av RL för tänkande modell i biljonskala
Att skala RL är svårt! Men det här teamet kan ha kommit på något.
De introducerar Ring-1T, en 1T-parameter MoE-resonemangsmodell med ~50B params aktiva per token.
Den tränas med en lång CoT SFT-fas, en RL-fas som resonerar med verifierbara belöningar, sedan en allmän RLHF-fas och introducerar tre delar som gör att RL i biljonskala faktiskt körs:
- IcePop för att stabilisera uppdateringar
- C3PO++ för att hålla GPU:er sysselsatta under en tokenbudget
- ASystem för att förena RL-stack med hög genomströmning
På benchmarks leder den öppna vikter på AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces och ArenaHard v2.
Den når silvermedaljnivå på IMO-2025 med enbart naturligt språkresonemang.

Topp
Rankning
Favoriter