Motif-2-12.7B mới (từ Hàn Quốc) thực sự có điểm số ấn tượng và họ lại một lần nữa nấu nướng với tối ưu hóa kiến trúc/phần cứng. Phần tôi thích nhất là cách họ đã sử dụng Motif-2.6B trước đó để khởi tạo mô hình lớn hơn, sử dụng hai kỹ thuật khác nhau để mở rộng độ sâu và chiều rộng của mô hình, điều này cải thiện hiệu quả token so với việc đào tạo từ đầu. Họ cũng sử dụng công việc của chính mình để cải thiện sự chú ý vi phân mà họ đã sử dụng trước đó, với một biến thể nhóm để có được độ chi tiết hơn trong các đầu nhiễu và tín hiệu (nhiều tín hiệu, ít nhiễu). Chỉ được đào tạo trên 5.5T token, với "lịch trình dữ liệu nhận thức chương trình" (không có nhiều thông tin về điều này) + rất nhiều tối ưu hóa phần cứng khác nhau (một số trong số đó là mã nguồn mở, xem các liên kết bên dưới!) với Muon-Clip song song, các kernel hiệu quả cho Polynorm, và đào tạo FP8 sử dụng torchtitan! Họ cũng đề cập rằng Muon cho phép kích thước lô lớn hơn, và họ mở rộng lên đến 80M GBS, điều này khá cao cho một mô hình có kích thước này. 400 GPU H100 và ~272K giờ GPU là ấn tượng để đạt được mức hiệu suất này theo ý kiến của tôi.