Noul Motif-2-12.7B (din sud-coreeană) are scoruri cu adevărat impresionante și au gătit încă o dată cu optimizarea arhitecturii/hardware-ului. Partea mea preferată este modul în care au folosit Motif-2.6B anterior pentru a inițializa modelul mai mare, folosind două tehnici diferite pentru a scala adâncimea și lățimea modelului, ceea ce îmbunătățește eficiența tokenului în comparație cu antrenamentul de la zero. De asemenea, își folosesc propria muncă pentru a îmbunătăți atenția diferențială pe care au folosit-o anterior, cu o variantă grupată pentru a obține mai multă granularitate în capetele de zgomot și semnal (mai mult semnal, mai puțin zgomot). Antrenat doar pe jetoane 5.5T, cu o "programare a datelor conștientă de curriculum" (nu prea multe informații despre asta) + o mulțime de optimizări hardware diferite (unele dintre ele sunt open source, vezi link-urile de mai jos!) cu Muon-Clip paralel, nuclee eficiente pentru Polynorm și antrenament FP8 folosind torchtitan! De asemenea, menționează că Muon permite loturi mai mari și scalează până la 80 de milioane GBS, ceea ce este destul de mare pentru un model de această dimensiune. 400 de GPU-uri H100 și ~272K ore GPU este impresionant pentru a obține acest nivel de performanță imo