DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Blog foarte tare de @character_ai scufundându-se în modul în care și-au antrenat modelul proprietar Kaiju (13B, 34B, 110B), înainte de a trece la modelul OSS, și spoiler: îl are pe Noam Shazeer scris peste tot. Majoritatea alegerilor pentru designul modelului (MQA, SWA, KV Cache, Cuantizare) nu sunt pentru a optimiza pentru "benchmark AGI" (gândiți-vă la MMLU), deoarece nu pentru asta oamenii vor folosi modelul, ci pentru a avea o viteză bună de servire. Cu toate acestea, ei includ cod în amestecul de pre-antrenament și fac recoacere pe date de înaltă calitate. Un lucru surprinzător este că acele modele nu sunt MoE, în ciuda faptului că oamenii care lucrau la personaje la acea vreme, cum ar fi @stephenroller sau Noam, au lucrat anterior la MoE. Iată câteva optimizări pe care le-au făcut -> Scalare asemănătoare MuP -> MQA + SWA -> Prindere peste tot pentru a controla activarea, nu sunteți sigur dacă este moale sau tare? -> Partajarea cache-ului KV -> Funcția de activare Relu^2 -> FSDP + TP + SP -> Comunicare gradient Int6 -> Antrenament conștient de cuantificare (QAT) cu lucruri precum "bungee_scalar" pentru a obține o rețetă stabilă pentru modele mai mici. KV Cache și forward pass sunt în int8, gradient și activare sunt în bf16, master weight și grad acc în fp32.

Limită superioară

Clasament

Favorite