توسيع نطاق RL لنموذج التفكير على نطاق تريليون تحجيم RL صعب! لكن هذا الفريق ربما اكتشف شيئا ما. يقدمون Ring-1T ، وهو نموذج منطقي لوزارة التربية والتعليم بمعلمة 1T مع ~ 50B معلمة نشطة لكل رمز مميز. يتم تدريبه بمرحلة SFT طويلة CoT ، ومرحلة RL للمنطق يمكن التحقق منها ، ثم مرحلة RLHF العامة ، ويقدم ثلاث قطع تجعل RL بمقياس تريليون يعمل بالفعل: - IcePop لتثبيت التحديثات - C3PO ++ لإبقاء وحدات معالجة الرسومات مشغولة بميزانية رمزية - أنظام توحيد مكدس RL عالي الإنتاجية على المعايير ، تقود الأوزان المفتوحة على AIME-25 و HMMT-25 و ARC-AGI-1 و LiveCodeBench و CodeForce و ArenaHard v2. يصل إلى مستوى الميدالية الفضية في IMO-2025 باستخدام التفكير باللغة الطبيعية فقط.