Prime-rlは現在、RLとSFTの両方でMoEを幅広くサポートしており、100B+モデルをトレーニングしています 以下をサポートします。 * Qwen3 a3-30b * GLMシリーズとムーンライト *私たちが話しているようにGPTOSSシリーズを追加します 最終的には、ほとんどのモデリングコードを書き直して、Hugging Faceエコシステムと互換性を保ちながらTorch Compileで動作するようにします
また、muonプレトレインモデルでのトレーニングをより安定させることがわかったため、Muonを使用してglmシリーズを微調整するためのサポートも追加しました。これは月明かりの論文で発見したこととよく相関しています。 dion の Microsoft 実装を使用しています
パフォーマンス的には、torchtitan moe トレーニングと同等です (主にコードを最適化するためのリファレンスとして torchtitan を使用したため)。 ミューオンを使用した 512 h200 gpu での 65K シーケンス レンジ トレーニングで、100B glm エア モーで 20% mfu に達します。 並列処理に関しては、torchtitan EP はスパース MoE に対してそれほど最適化されておらず、十分な大きさのバッチ サイズでは意味のある高速化が得られないことがわかりました。 MoEのグループmmカーネルのパフォーマンスを非常に速く飽和させることができ、EPでロードバランシングを改善すると、すべてをブロックするため、収益が減少するようです。 MoEのオープンソーススタック全体には改善の余地がたくさんあると考えています。MoEを高速化し、通信と計算を非常にきめ細かい方法で隠すために、最適化されたカーネルの必要性が強く求められています。ブラックウェルにはさらに必要とされそうです
ああ、萌えに関する作業のほとんどは@jackminongによって行われました
13.71K