Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

El nuevo Motif-2-12.7B (de Corea del Sur) tiene puntajes realmente impresionantes y se cocinaron una vez más con la optimización de arquitectura / hardware. Mi parte favorita es cómo usaron el Motif-2.6B anterior para inicializar el modelo más grande, utilizando dos técnicas diferentes para escalar la profundidad y el ancho del modelo, lo que mejora la eficiencia del token en comparación con el entrenamiento desde cero. También utilizan su propio trabajo para mejorar la atención diferencial que utilizaban anteriormente, con una variante agrupada para conseguir más granularidad en los cabezales de ruido y señal (más señal, menos entrometimiento). Entrenado solo en tokens 5.5T, con una "programación de datos consciente del plan de estudios" (aunque no hay mucha información sobre esto) + muchas optimizaciones de hardware diferentes (algunas de ellas son de código abierto, ¡vea los enlaces a continuación!) con Muon-Clip paralelo, kernels eficientes para Polynorm y entrenamiento FP8 usando torchtitan. También mencionan que Muon permite tamaños de lote más grandes y escalan hasta 80 millones de GBS, lo cual es bastante alto para un modelo de este tamaño. 400 GPU H100 y ~ 272K horas de GPU es impresionante para obtener este nivel de rendimiento en mi opinión

Populares

Ranking

Favoritas