Nowy Motif-2-12.7B (z Korei Południowej) ma naprawdę imponujące wyniki i ponownie zaskoczyli optymalizacją architektury/sprzętu. Moja ulubiona część to sposób, w jaki wykorzystali poprzedni Motif-2.6B do inicjalizacji większego modelu, stosując dwie różne techniki do skalowania głębokości i szerokości modelu, co poprawia efektywność tokenów w porównaniu do treningu od zera. Używają również swojej pracy, aby poprawić różnicową uwagę, którą wcześniej stosowali, z grupowaną wariantą, aby uzyskać większą szczegółowość w głowach szumów i sygnałów (więcej sygnału, mniej szumów). Wytrenowany tylko na 5.5T tokenów, z „harmonogramowaniem danych świadomym programu nauczania” (nie ma na ten temat zbyt wielu informacji) + wiele różnych optymalizacji sprzętowych (niektóre z nich są open source, zobacz linki poniżej!) z równoległym Muon-Clip, efektywnymi rdzeniami dla Polynorm i treningiem FP8 przy użyciu torchtitan! Wspominają również, że Muon pozwala na większe rozmiary partii, a oni skalują do 80M GBS, co jest dość wysokie jak na model tej wielkości. 400 GPU H100 i ~272K godzin GPU to imponujące osiągnięcie, aby uzyskać ten poziom wydajności, moim zdaniem.