Selv med full-batch-gradienter, trosser DL-optimalisatorer klassisk optimaliseringsteori, da de opererer på *kanten av stabilitet.*
Med @alex_damian_ introduserer vi "sentrale strømmer": et teoretisk verktøy for å analysere denne dynamikken som gir nøyaktige kvantitative prediksjoner på reelle NN-er.
Som forventet er ikke NSA kompatibel med MLA, så DeepSeek valgte en annen metode: bruk en mindre (d=128) oppmerksomhet (uten verdi) som indekserer.
Asymptotisk kostnadsforhold = 128/576.
I tillegg bruker indekserer FP8 mens hoved-MLA bruker 16-bit, så = 64/576 = 1/9.