مدونة رائعة جدا من خلال الغوص @character_ai في كيفية تدريبهم على نموذجهم الخاص Kaiju (13B ، 34B ، 110B) ، قبل التبديل إلى نموذج OSS ، والمفسد: يحتوي على Noam Shazeer مكتوب في كل مكان. معظم خيارات تصميم النموذج (MQA ، SWA ، KV Cache ، التكميم) ليست لتحسين "معيار AGI" (فكر في MMLU) لأن هذا ليس ما سيستخدم الناس النموذج من أجله ولكن بدلا من ذلك يتمتعون بسرعة تقديم جيدة. ومع ذلك ، فإنهم يشملون التعليمات البرمجية في مزيج ما قبل التدريب ويقومون بالتلدين على بيانات عالية الجودة "صديقة للمعيار". أحد الأشياء المدهشة هو أن هذه النماذج ليست وزارة التربية والتعليم ، على الرغم من أن الأشخاص الذين يعملون في شخصية في ذلك الوقت مثل @stephenroller أو نعوم عملوا سابقا في وزارة التربية. فيما يلي بعض التحسينات التي قاموا بها - تحجيم > يشبه MuP -> MQA + SWA -> لقط في كل مكان للتحكم في التنشيط ، لست متأكدا مما إذا كان ناعما أم صلبا؟ - > مشاركة ذاكرة التخزين المؤقت KV -> وظيفة تنشيط Relu ^ 2 - > FSDP + TP + SP - > اتصال التدرج Int6 - > التدريب على التكميم (QAT) مع أشياء مثل "bungee_scalar" للحصول على وصفة مستقرة للنماذج الأصغر. ذاكرة التخزين المؤقت KV والتمرير الأمامي في int8 ، والتدرج والتنشيط في bf16 ، والوزن الرئيسي ودرجة acc في fp32.