Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RL:n skaalaus biljoonan mittakaavan ajattelumallille
RL:n skaalaaminen on vaikeaa! Mutta tämä joukkue on saattanut keksiä jotain.
He esittelevät Ring-1T:n, 1T-parametrin MoE-päättelymallin, jossa on ~50 miljardia aktiivista parametria tokenia kohden.
Se on koulutettu pitkän CoT:n SFT-vaiheella, todennettavissa olevan palkkion päättely-RL-vaiheella, sitten yleisellä RLHF-vaiheella, ja siinä esitellään kolme osaa, jotka saavat biljoonan mittakaavan RL:n todella toimimaan:
- IcePop vakauttaa päivitykset
- C3PO++ pitää grafiikkasuorittimet kiireisinä token-budjetilla
- ASystem yhdistää korkean suorituskyvyn RL-pinon
Vertailuarvoissa se johtaa avoimia painoja AIME-25:ssä, HMMT-25:ssä, ARC-AGI-1:ssä, LiveCodeBenchissä, CodeForcesissa ja ArenaHard v2:ssa.
Se saavuttaa hopeamitalitason IMO-2025:ssä käyttämällä vain luonnollisen kielen päättelyä.

Johtavat
Rankkaus
Suosikit