OSS モデルに切り替える前に、独自のモデル Kaiju (13B、34B、110B) をどのようにトレーニングしたかを @character_ai で詳しく説明した非常にクールなブログで、ネタバレとして、Noam Shazeer がいたるところに書かれています。 モデル設計(MQA、SWA、KV Cache、Quantization)の選択肢のほとんどは、「AGIベンチマーク」(MMLUを思い浮かべてください)に最適化することではなく、人々がモデルを使用する目的ではなく、優れたサービング速度を持つことです。それでも、彼らは事前トレーニングミックスにコードを含め、高品質の「ベンチマークフレンドリー」データでアニーリングを行います。 驚くべきことの 1 つは、当時 @stephenroller や Noam のようにキャラクターに取り組んでいた人々が以前に MoE に取り組んでいたにもかかわらず、これらのモデルが MoE ではないことです。 彼らが行った最適化をいくつか紹介します -> MuPのようなスケーリング -> MQA + SWA -> アクティベーションを制御するためにいたるところにクランプしますが、ソフトか硬かわかりませんか? ->KVキャッシュ共有 -> Relu^2 活性化関数 -> FSDP + TP + SP -> Int6勾配通信 -> 「bungee_scalar」などの量子化認識トレーニング(QAT)を使用して、より小さなモデルの安定したレシピを取得します。KVキャッシュとフォワードパスはint8、グラデーションとアクティベーションはbf16、マスターウェイトとgrad accはfp32です。