Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Масштабирование RL для модели мышления триллионного масштаба
Масштабирование RL сложно! Но эта команда, возможно, что-то придумала.
Они представляют Ring-1T, модель рассуждений MoE с 1T параметрами, с ~50B активными параметрами на токен.
Она обучается с помощью долгой фазы SFT CoT, фазы рассуждений RL с проверяемыми наградами, а затем фазы общего RLHF, и вводит три элемента, которые позволяют триллионному масштабу RL действительно работать:
- IcePop для стабилизации обновлений
- C3PO++ для поддержания загрузки GPU в рамках бюджета токенов
- ASystem для унификации стека RL с высокой пропускной способностью
На бенчмарках она лидирует среди открытых весов на AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces и ArenaHard v2.
Она достигает уровня серебряной медали на IMO-2025, используя только рассуждения на естественном языке.

Топ
Рейтинг
Избранное

