トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OSS モデルに切り替える前に、独自のモデル Kaiju (13B、34B、110B) をどのようにトレーニングしたかを @character_ai で詳しく説明した非常にクールなブログで、ネタバレとして、Noam Shazeer がいたるところに書かれています。
モデル設計(MQA、SWA、KV Cache、Quantization)の選択肢のほとんどは、「AGIベンチマーク」(MMLUを思い浮かべてください)に最適化することではなく、人々がモデルを使用する目的ではなく、優れたサービング速度を持つことです。それでも、彼らは事前トレーニングミックスにコードを含め、高品質の「ベンチマークフレンドリー」データでアニーリングを行います。
驚くべきことの 1 つは、当時 @stephenroller や Noam のようにキャラクターに取り組んでいた人々が以前に MoE に取り組んでいたにもかかわらず、これらのモデルが MoE ではないことです。
彼らが行った最適化をいくつか紹介します
-> MuPのようなスケーリング
-> MQA + SWA
-> アクティベーションを制御するためにいたるところにクランプしますが、ソフトか硬かわかりませんか?
->KVキャッシュ共有
-> Relu^2 活性化関数
-> FSDP + TP + SP
-> Int6勾配通信
-> 「bungee_scalar」などの量子化認識トレーニング(QAT)を使用して、より小さなモデルの安定したレシピを取得します。KVキャッシュとフォワードパスはint8、グラデーションとアクティベーションはbf16、マスターウェイトとgrad accはfp32です。

トップ
ランキング
お気に入り

