DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Zeer coole blog van @character_ai die ingaat op hoe ze hun eigen model Kaiju (13B, 34B, 110B) hebben getraind, voordat ze overstapten naar een OSS-model, en spoiler: het heeft Noam Shazeer er overal op staan. De meeste keuzes voor modelontwerp (MQA, SWA, KV Cache, Kwantisatie) zijn niet om te optimaliseren voor "AGI benchmark" (denk aan MMLU) aangezien dit niet is waar mensen het model voor zullen gebruiken, maar in plaats daarvan voor een goede serveersnelheid. Toch hebben ze code opgenomen in de pre-trainmix en doen ze annealing op hoogwaardige "benchmarkvriendelijke" data. Een verrassend ding is dat die modellen geen MoEs zijn, ondanks dat mensen die destijds bij character werkten zoals @stephenroller of Noam eerder aan MoE hebben gewerkt. Hier zijn een paar optimalisaties die ze hebben gedaan -> MuP-achtige schaling -> MQA + SWA -> Clamping overal om activatie te controleren, niet zeker of het zacht of hard is? -> KV Cache delen -> Relu^2 activatiefunctie -> FSDP + TP + SP -> Int6 gradientcommunicatie -> Kwantisatie Bewuste Training (QAT) met dingen zoals "bungee_scalar" om een stabiel recept te krijgen voor kleinere modellen. KV Cache en forward pass zijn in int8, gradient en activatie zijn in bf16, mastergewicht en grad acc in fp32.

Boven

Positie

Favorieten