Penskalaan RL untuk Model Pemikiran Skala Triliunan Menskalakan RL itu sulit! Tapi tim ini mungkin telah menemukan sesuatu. Mereka memperkenalkan Ring-1T, model penalaran MoE parameter 1T dengan ~50B parameter aktif per token. Ini dilatih dengan fase SFT CoT panjang, fase RL penalaran hadiah yang dapat diverifikasi, kemudian fase RLHF umum, dan memperkenalkan tiga bagian yang membuat RL skala triliunan benar-benar berjalan: - IcePop untuk menstabilkan pembaruan - C3PO++ untuk membuat GPU tetap sibuk di bawah anggaran token - ASystem untuk menyatukan tumpukan RL throughput tinggi Pada benchmark, ia memimpin bobot terbuka pada AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces, dan ArenaHard v2. Ini mencapai tingkat medali perak pada IMO-2025 hanya menggunakan penalaran bahasa alami.