Prime-rl:llä on nyt laaja tuki MoE:lle sekä RL:lle että SFT:lle, olemme kouluttaneet sen kanssa 100B+-mallia Tuemme seuraavia: * Qwen3 a3-30b * GLM-sarja ja Moonlight * GPT OSS-sarjan lisääminen puhuessamme Päädymme kirjoittamaan suurimman osan mallinnuskoodista uudelleen, jotta se toimisi Torch Compilen kanssa ja olisi silti yhteensopiva Hagging Face -ekosysteemin kanssa
Lisäsimme myös tuen glm-sarjan hienosäätöön Muonilla, koska huomasimme sen tekevän harjoittelusta paljon vakaampaa myonin esiharjoitusmallissa. Tämä korreloi hyvin kuutamopaperin löydösten kanssa. Käytämme Microsoftin toteutusta dionissa
Suorituskyvyn suhteen olemme samalla tasolla torchtitan moe -koulutuksen kanssa (lähinnä siksi, että otimme torchtitanin referenssiksi koodimme optimoinnissa). Saavutamme 20 % mfu:n 100B glm air moe:lla 65K seq len -harjoittelulla 512 h200 gpu:lla myonilla. Rinnakkaisuuden suhteen huomasimme, että torchtitan EP:tä ei ole juurikaan optimoitu harvoille MoE:ille, eikä se tuottanut mitään merkittävää nopeutusta, kun eräkoko on riittävän suuri. Näyttää siltä, että voimme kyllästää ryhmän mm-ytimen suorituskyvyn MoEs:lle melko nopeasti ja että parempi kuormituksen tasapainotus EP:llä tuottaa pienenevän tuoton, koska kaikki estetään kaikille. Uskomme, että MoEs:n avoimen lähdekoodin pinossa on paljon parantamisen varaa. On olemassa suuri tarve optimoiduille ytimille, jotka nopeuttavat MoE:tä ja piilottavat viestinnän ja laskennan erittäin hienorakeisella tavalla. Sitä näyttää tarvitsevan vielä enemmän Blackwellille
Ah myös suurin osa Moe-työstä on tehty @jackminong
20,88K