Jopa täyden erän gradienteilla DL-optimoijat uhmaavat klassista optimointiteoriaa, koska ne toimivat vakauden *reunalla.*
@alex_damian_:n avulla esittelemme "keskusvirrat": teoreettisen työkalun tämän dynamiikan analysointiin, joka tekee tarkkoja kvantitatiivisia ennusteita todellisista NN:istä.
Kuten odotettiin, NSA ei ole yhteensopiva MLA:n kanssa, joten DeepSeek valitsi toisen menetelmän: käytä indeksoijana pienempää (d=128) huomiota (ilman arvoa).
Asymptoottinen kustannussuhde = 128/576.
Lisäksi indeksoija käyttää FP8:aa, kun taas pää-MLA käyttää 16-bittistä, joten = 64/576 = 1/9.