Das neue Motif-2-12.7B (aus Südkorea) hat wirklich beeindruckende Werte erzielt und sie haben erneut mit der Architektur-/Hardware-Optimierung überzeugt. Mein Lieblingsteil ist, wie sie das vorherige Motif-2.6B verwendet haben, um das größere Modell zu initialisieren, indem sie zwei verschiedene Techniken genutzt haben, um die Tiefe und Breite des Modells zu skalieren, was die Token-Effizienz im Vergleich zum Training von Grund auf verbessert. Sie verwenden auch ihre eigene Arbeit, um die differenzielle Aufmerksamkeit, die sie zuvor verwendet haben, zu verbessern, mit einer gruppierten Variante, um mehr Granularität in den Rausch- und Signalköpfen zu erhalten (mehr Signal, weniger Rauschen). Trainiert nur mit 5,5T Tokens, mit einer "curriculum-aware data scheduling" (nicht viel Info dazu) + vielen verschiedenen Hardware-Optimierungen (einige davon sind Open Source, siehe Links unten!) mit parallelem Muon-Clip, effizienten Kernen für Polynorm und FP8-Training mit torchtitan! Sie erwähnen auch, dass Muon größere Batch-Größen ermöglicht, und sie skalieren bis zu 80M GBS, was für ein Modell dieser Größe ziemlich hoch ist. 400 H100 GPUs und ~272K GPU-Stunden sind beeindruckend, um dieses Leistungsniveau zu erreichen, meiner Meinung nach.