Dokonce i s plnodávkovými gradienty se optimalizátory DL vzpírají klasické optimalizační teorii, protože pracují na *okraji stability.*
V @alex_damian_ představujeme "centrální toky": teoretický nástroj pro analýzu této dynamiky, který umožňuje přesné kvantitativní předpovědi o skutečných NN.
Jak se dalo očekávat, NSA není kompatibilní s MLA, takže DeepSeek zvolil jinou metodu: jako indexátor použijte menší (d=128) pozornost (bez hodnoty).
Asymptotický nákladový poměr = 128/576.
Kromě toho, indexer používá FP8, zatímco hlavní MLA používá 16bitový, takže = 64/576 = 1/9.