Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Skalierung von RL für Trillionen-Skalierungs-Denkmodelle
Die Skalierung von RL ist schwierig! Aber dieses Team könnte etwas herausgefunden haben.
Sie stellen Ring-1T vor, ein 1T-Parameter MoE-Reasoning-Modell mit ~50B aktiven Parametern pro Token.
Es wird mit einer langen CoT-SFT-Phase, einer verifizierbaren Belohnungs-Reasoning-RL-Phase und dann einer allgemeinen RLHF-Phase trainiert und führt drei Komponenten ein, die die Trillionen-Skalierung von RL tatsächlich ermöglichen:
- IcePop zur Stabilisierung von Updates
- C3PO++, um GPUs unter einem Token-Budget beschäftigt zu halten
- ASystem zur Vereinheitlichung des Hochdurchsatz-RL-Stacks
In Benchmarks führt es bei offenen Gewichten auf AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces und ArenaHard v2.
Es erreicht Silbermedaille-Niveau bei IMO-2025, indem es nur natürliche Sprach-Reasoning verwendet.

Top
Ranking
Favoriten