RL:n skaalaus biljoonan mittakaavan ajattelumallille RL:n skaalaaminen on vaikeaa! Mutta tämä joukkue on saattanut keksiä jotain. He esittelevät Ring-1T:n, 1T-parametrin MoE-päättelymallin, jossa on ~50 miljardia aktiivista parametria tokenia kohden. Se on koulutettu pitkän CoT:n SFT-vaiheella, todennettavissa olevan palkkion päättely-RL-vaiheella, sitten yleisellä RLHF-vaiheella, ja siinä esitellään kolme osaa, jotka saavat biljoonan mittakaavan RL:n todella toimimaan: - IcePop vakauttaa päivitykset - C3PO++ pitää grafiikkasuorittimet kiireisinä token-budjetilla - ASystem yhdistää korkean suorituskyvyn RL-pinon Vertailuarvoissa se johtaa avoimia painoja AIME-25:ssä, HMMT-25:ssä, ARC-AGI-1:ssä, LiveCodeBenchissä, CodeForcesissa ja ArenaHard v2:ssa. Se saavuttaa hopeamitalitason IMO-2025:ssä käyttämällä vain luonnollisen kielen päättelyä.