Prime-rl har nå omfattende støtte for MoE både for RL og SFT, vi har trent 100B+ modell med den Vi har støtte for: * Qwen3 a3-30b * GLM-serien og Moonlight * Legger til GPT OSS-serien mens vi snakker Vi ender opp med å skrive om det meste av modelleringskoden for å få den til å fungere med Torch Comile samtidig som den er kompatibel med Hugging Face-økosystemet
Vi la også til støtte for å finjustere glm-serien med Muon da vi fant ut at den gjorde treningen mye mer stabil på myon pretrain-modellen. Dette korrelerer godt med funn i måneskinnsartikkelen. Vi bruker Microsoft-implementeringen i dion
Ytelsesmessig er vi på nivå med torchtitan moe-trening (hovedsakelig fordi vi tok torchtitan som referanse for å optimalisere koden vår). Vi når 20 % mfu på 100B glm air moe ved 65K seq len trening på 512 h200 gpu med myon. Når det gjelder parallellitet, fant vi ut at torchtitan EP ikke er så mye optimalisert for sparsomme MoE-er, og det ga ingen meningsfull speedup med stor nok batchstørrelse. Det ser ut til at vi kan mette ytelsen til gruppe mm-kjernen for MoEs ganske raskt, og at bedre lastbalansering med EP gir redusert avkastning på grunn av blokkeringen alt til alle. Vi tror at det er mye rom for forbedring på tvers av åpen kildekode-stabelen for MoEs. Det er et sterkt behov for optimaliserte kjerner for å gjøre MoEs raskere og for å skjule kommunikasjon og beregning på en veldig finkornet måte. Det ser ut til å være enda mer nødvendig for blackwell
ah også det meste av arbeidet med Moe har blitt gjort av @jackminong
18,04K