Новый Motif-2-12.7B (из Южной Кореи) действительно имеет впечатляющие результаты, и они снова поработали над оптимизацией архитектуры/аппаратного обеспечения. Моя любимая часть заключается в том, как они использовали предыдущий Motif-2.6B для инициализации более крупной модели, применяя две разные техники для масштабирования глубины и ширины модели, что улучшает эффективность токенов по сравнению с обучением с нуля. Они также используют свою собственную работу для улучшения дифференциального внимания, которое они использовали ранее, с группированным вариантом для получения большей детализации в головах шума и сигнала (больше сигнала, меньше шума). Обученный только на 5.5T токенов, с "осведомленным о курсе планированием данных" (хотя информации об этом не так много) + множеством различных оптимизаций аппаратного обеспечения (некоторые из них являются открытым исходным кодом, смотрите ссылки ниже!) с параллельным Muon-Clip, эффективными ядрами для Polynorm и обучением FP8 с использованием torchtitan! Они также упоминают, что Muon позволяет использовать большие размеры пакетов, и они масштабируются до 80M GBS, что довольно много для модели такого размера. 400 H100 GPU и ~272K GPU-часов впечатляют для достижения такого уровня производительности, на мой взгляд.