Den nye Motif-2-12.7B (fra Sør-Korea) har virkelig imponerende poengsum, og de kokte nok en gang med arkitektur/maskinvareoptimalisering. Min favorittdel er hvordan de brukte den forrige Motif-2.6B for å initialisere den større modellen, ved å bruke to forskjellige teknikker for å skalere dybden og bredden på modellen, noe som forbedrer token-effektiviteten sammenlignet med trening fra bunnen av. De bruker også sitt eget arbeid for å forbedre differensiell oppmerksomhet de tidligere brukte, med en gruppert variant for å få mer granularitet i støy- og signalhodene (mer signal, mindre støy). Trent kun på 5.5T-tokens, med en "læreplanbevisst dataplanlegging" (ikke mye info om dette) + mange forskjellige maskinvareoptimaliseringer (noen av dem er åpen kildekode, se lenker nedenfor!) med parallelle Muon-Clip, effektive kjerner for Polynorm og FP8-trening ved hjelp av torchtitan! De nevner også at Muon tillater større batchstørrelser, og de skalerer opp til 80M GBS, noe som er ganske høyt for en modell av denne størrelsen. 400 H100 GPUer og ~272K GPU-timer er imponerende å få dette ytelsesnivået imo