المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
يحتوي Motif-2-12.7B الجديد (من كوريا الجنوبية) على درجات رائعة حقا وقد تم طهيه مرة أخرى مع تحسين الهندسة المعمارية / الأجهزة.
الجزء المفضل لدي هو كيفية استخدامهم ل Motif-2.6B السابق لتهيئة النموذج الأكبر ، باستخدام تقنيتين مختلفتين لقياس عمق وعرض النموذج ، مما يحسن كفاءة الرمز المميز مقارنة بالتدريب من البداية. كما أنهم يستخدمون عملهم الخاص لتحسين الانتباه التفاضلي الذي استخدموه سابقا ، مع متغير مجمع للحصول على مزيد من الدقة في الضوضاء ورؤوس الإشارات (المزيد من الإشارات ، وأقل فضولة).
تم تدريبه فقط على الرموز المميزة 5.5T ، مع "جدولة البيانات المدركة للمنهج الدراسي" (ليس هناك الكثير من المعلومات حول هذا) + الكثير من تحسينات الأجهزة المختلفة (بعضها مفتوح المصدر ، انظر الروابط أدناه!) مع Muon-Clip المتوازي ، والنواة الفعالة ل Polynorm ، وتدريب FP8 باستخدام torchtitan!
يذكرون أيضا أن Muon يسمح بأحجام دفعات أكبر ، ويصل حجمها إلى 80 مليون جيجابايت ، وهو أمر مرتفع جدا بالنسبة لطراز بهذا الحجم.
400 وحدة معالجة رسومات H100 و ~ 272 ألف ساعة GPU مثيرة للإعجاب للحصول على هذا المستوى من الأداء IMO

الأفضل
المُتصدِّرة
التطبيقات المفضلة

