DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

De nieuwe Motif-2-12.7B (uit Zuid-Korea) heeft echt indrukwekkende scores en ze hebben opnieuw gekookt met de architectuur/hardware-optimalisatie. Mijn favoriete deel is hoe ze de vorige Motif-2.6B hebben gebruikt om het grotere model te initialiseren, met behulp van twee verschillende technieken om de diepte en breedte van het model te schalen, wat de token-efficiëntie verbetert in vergelijking met trainen vanaf nul. Ze gebruiken ook hun eigen werk om de differentiële aandacht die ze eerder gebruikten te verbeteren, met een gegroepeerde variant om meer granulariteit te krijgen in de ruis- en signaalkoppen (meer signaal, minder ruis). Getraind op slechts 5,5T tokens, met een "curriculum-aware data scheduling" (niet veel info hierover) + een hoop verschillende hardware-optimalisaties (sommige zijn open source, zie links hieronder!) met parallelle Muon-Clip, efficiënte kernels voor Polynorm, en FP8-training met torchtitan! Ze vermelden ook dat Muon grotere batchgroottes mogelijk maakt, en ze schalen tot 80M GBS, wat behoorlijk hoog is voor een model van deze grootte. 400 H100 GPU's en ~272K GPU-uren is indrukwekkend om dit niveau van prestaties te bereiken, vind ik.

Boven

Positie

Favorieten