El nuevo Motif-2-12.7B (de Corea del Sur) tiene puntuaciones realmente impresionantes y han vuelto a innovar con la optimización de la arquitectura/hardware. Mi parte favorita es cómo utilizaron el anterior Motif-2.6B para inicializar el modelo más grande, usando dos técnicas diferentes para escalar la profundidad y el ancho del modelo, lo que mejora la eficiencia de los tokens en comparación con entrenar desde cero. También utilizan su propio trabajo para mejorar la atención diferencial que usaron anteriormente, con una variante agrupada para obtener más granularidad en los cabezales de ruido y señal (más señal, menos ruido). Entrenado solo con 5.5T de tokens, con una "programación de datos consciente del currículo" (aunque no hay mucha información sobre esto) + muchas optimizaciones de hardware diferentes (algunas de ellas son de código abierto, ¡vea los enlaces a continuación!) con Muon-Clip en paralelo, núcleos eficientes para Polynorm, y entrenamiento FP8 usando torchtitan. También mencionan que Muon permite tamaños de lote más grandes, y escalan hasta 80M GBS, lo cual es bastante alto para un modelo de este tamaño. 400 GPUs H100 y ~272K horas de GPU es impresionante para alcanzar este nivel de rendimiento, en mi opinión.