DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Un blog très intéressant de @character_ai qui plonge dans la façon dont ils ont entraîné leur modèle propriétaire Kaiju (13B, 34B, 110B), avant de passer à un modèle OSS, et spoiler : il porte la signature de Noam Shazeer. La plupart des choix pour la conception du modèle (MQA, SWA, KV Cache, Quantification) ne visent pas à optimiser pour le "benchmark AGI" (pensez à MMLU) puisque ce n'est pas pour cela que les gens utiliseront le modèle, mais plutôt pour avoir une bonne vitesse de service. Néanmoins, ils incluent du code dans le mélange de pré-entraînement et effectuent un recuit sur des données de haute qualité "compatibles avec les benchmarks". Une chose surprenante est que ces modèles ne sont pas des MoEs, malgré le fait que des personnes travaillant chez character à l'époque comme @stephenroller ou Noam aient précédemment travaillé sur MoE. Voici quelques optimisations qu'ils ont réalisées : -> Mise à l'échelle de type MuP -> MQA + SWA -> Clamping partout pour contrôler l'activation, pas sûr si c'est doux ou dur ? -> Partage de KV Cache -> Fonction d'activation Relu^2 -> FSDP + TP + SP -> Communication de gradient Int6 -> Entraînement conscient de la quantification (QAT) avec des éléments comme "bungee_scalar" pour obtenir une recette stable pour des modèles plus petits. KV Cache et passage avant sont en int8, gradient et activation sont en bf16, poids maître et acc grad en fp32.

Meilleurs

Classement

Favoris