O novo Motif-2-12.7B (da Coreia do Sul) tem pontuações realmente impressionantes e eles cozinharam mais uma vez com a otimização da arquitetura/hardware. A minha parte favorita é como eles usaram o Motif-2.6B anterior para inicializar o modelo maior, utilizando duas técnicas diferentes para escalar a profundidade e a largura do modelo, o que melhora a eficiência dos tokens em comparação com o treinamento do zero. Eles também utilizam o seu próprio trabalho para melhorar a atenção diferencial que usaram anteriormente, com uma variante agrupada para obter mais granularidade nas cabeças de ruído e sinal (mais sinal, menos ruído). Treinado apenas com 5.5T tokens, com uma "programação de dados consciente do currículo" (não há muitas informações sobre isso) + muitas otimizações de hardware diferentes (algumas delas são de código aberto, veja os links abaixo!) com Muon-Clip paralelo, núcleos eficientes para Polynorm, e treinamento FP8 usando torchtitan! Eles também mencionam que o Muon permite tamanhos de lote maiores, e eles escalam até 80M GBS, o que é bastante alto para um modelo deste tamanho. 400 GPUs H100 e ~272K horas de GPU é impressionante para alcançar este nível de desempenho, na minha opinião.