المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
توسيع نطاق RL لنموذج التفكير على نطاق تريليون
تحجيم RL صعب! لكن هذا الفريق ربما اكتشف شيئا ما.
يقدمون Ring-1T ، وهو نموذج منطقي لوزارة التربية والتعليم بمعلمة 1T مع ~ 50B معلمة نشطة لكل رمز مميز.
يتم تدريبه بمرحلة SFT طويلة CoT ، ومرحلة RL للمنطق يمكن التحقق منها ، ثم مرحلة RLHF العامة ، ويقدم ثلاث قطع تجعل RL بمقياس تريليون يعمل بالفعل:
- IcePop لتثبيت التحديثات
- C3PO ++ لإبقاء وحدات معالجة الرسومات مشغولة بميزانية رمزية
- أنظام توحيد مكدس RL عالي الإنتاجية
على المعايير ، تقود الأوزان المفتوحة على AIME-25 و HMMT-25 و ARC-AGI-1 و LiveCodeBench و CodeForce و ArenaHard v2.
يصل إلى مستوى الميدالية الفضية في IMO-2025 باستخدام التفكير باللغة الطبيعية فقط.

الأفضل
المُتصدِّرة
التطبيقات المفضلة