Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mise à l'échelle de l'IA par renforcement pour un modèle de pensée à l'échelle des trillions
Mise à l'échelle de l'IA par renforcement est difficile ! Mais cette équipe a peut-être trouvé quelque chose.
Ils introduisent Ring-1T, un modèle de raisonnement MoE à 1T paramètres avec ~50B paramètres actifs par token.
Il est entraîné avec une phase SFT longue-CoT, une phase de raisonnement RL avec récompenses vérifiables, puis une phase générale RLHF, et introduit trois éléments qui permettent à l'IA par renforcement à l'échelle des trillions de fonctionner réellement :
- IcePop pour stabiliser les mises à jour
- C3PO++ pour garder les GPU occupés sous un budget de tokens
- ASystem pour unifier la pile RL à haut débit
Sur les benchmarks, il mène les poids ouverts sur AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces, et ArenaHard v2.
Il atteint un niveau de médaille d'argent sur IMO-2025 en utilisant uniquement le raisonnement en langage naturel.

Meilleurs
Classement
Favoris