DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Le nouveau Motif-2-12.7B (en provenance de Corée du Sud) a vraiment des scores impressionnants et ils ont encore une fois réussi avec l'optimisation de l'architecture/matériel. Ma partie préférée est la façon dont ils ont utilisé le précédent Motif-2.6B pour initialiser le modèle plus grand, en utilisant deux techniques différentes pour augmenter la profondeur et la largeur du modèle, ce qui améliore l'efficacité des tokens par rapport à un entraînement depuis zéro. Ils utilisent également leur propre travail pour améliorer l'attention différentielle qu'ils utilisaient précédemment, avec une variante groupée pour obtenir plus de granularité dans les têtes de bruit et de signal (plus de signal, moins de bruit). Entraîné uniquement sur 5,5T de tokens, avec une "planification de données consciente du curriculum" (pas beaucoup d'infos là-dessus) + beaucoup d'optimisations matérielles différentes (certaines d'entre elles sont open source, voir les liens ci-dessous !) avec Muon-Clip parallèle, des noyaux efficaces pour Polynorm, et un entraînement FP8 utilisant torchtitan ! Ils mentionnent également que Muon permet des tailles de lot plus grandes, et ils montent jusqu'à 80M GBS, ce qui est assez élevé pour un modèle de cette taille. 400 GPU H100 et ~272K heures GPU, c'est impressionnant pour atteindre ce niveau de performance à mon avis.

Meilleurs

Classement

Favoris