新しいMotif-2-12.7B(韓国製)は本当に印象的なスコアを持っており、アーキテクチャ/ハードウェアの最適化で再び調理されました。 私のお気に入りの部分は、以前の Motif-2.6B を使用してより大きなモデルを初期化し、2 つの異なる手法を使用してモデルの奥行きと幅をスケーリングする方法であり、ゼロからのトレーニングと比較してトークンの効率が向上しました。また、独自の作業を使用して、以前使用していた差動アテンションを改善し、グループ化されたバリアントを使用して、ノイズと信号ヘッドの粒度を高めます(信号が増え、ノイズが少なくなります)。 5.5Tトークンのみでトレーニングされ、「カリキュラムを意識したデータスケジューリング」(これについてはあまり情報がありません)+並列Muon-Clipによるさまざまなハードウェア最適化(一部はオープンソースです、以下のリンクを参照してください!)、Polynorm用の効率的なカーネル、およびtorchtitanを使用したFP8トレーニング! また、Muon ではより大きなバッチ サイズが可能で、最大 80M GBS までスケールアップでき、これはこのサイズのモデルとしてはかなり高いと述べています。 400 個の H100 GPU と ~272K GPU 時間は、このレベルのパフォーマンスを実現するのに印象的です。