يحتوي Motif-2-12.7B الجديد (من كوريا الجنوبية) على درجات رائعة حقا وقد تم طهيه مرة أخرى مع تحسين الهندسة المعمارية / الأجهزة. الجزء المفضل لدي هو كيفية استخدامهم ل Motif-2.6B السابق لتهيئة النموذج الأكبر ، باستخدام تقنيتين مختلفتين لقياس عمق وعرض النموذج ، مما يحسن كفاءة الرمز المميز مقارنة بالتدريب من البداية. كما أنهم يستخدمون عملهم الخاص لتحسين الانتباه التفاضلي الذي استخدموه سابقا ، مع متغير مجمع للحصول على مزيد من الدقة في الضوضاء ورؤوس الإشارات (المزيد من الإشارات ، وأقل فضولة). تم تدريبه فقط على الرموز المميزة 5.5T ، مع "جدولة البيانات المدركة للمنهج الدراسي" (ليس هناك الكثير من المعلومات حول هذا) + الكثير من تحسينات الأجهزة المختلفة (بعضها مفتوح المصدر ، انظر الروابط أدناه!) مع Muon-Clip المتوازي ، والنواة الفعالة ل Polynorm ، وتدريب FP8 باستخدام torchtitan! يذكرون أيضا أن Muon يسمح بأحجام دفعات أكبر ، ويصل حجمها إلى 80 مليون جيجابايت ، وهو أمر مرتفع جدا بالنسبة لطراز بهذا الحجم. 400 وحدة معالجة رسومات H100 و ~ 272 ألف ساعة GPU مثيرة للإعجاب للحصول على هذا المستوى من الأداء IMO