Даже с градиентами полного пакета, оптимизаторы DL противоречат классической теории оптимизации, так как они работают на *грани стабильности.*
С @alex_damian_ мы представляем "центральные потоки": теоретический инструмент для анализа этих динамик, который делает точные количественные прогнозы для реальных НН.
Как и ожидалось, NSA несовместима с MLA, поэтому DeepSeek выбрал другой метод: использовать меньшую (d=128) внимательность (без значения) в качестве индексатора.
Асимптотическое соотношение затрат = 128/576.
Кроме того, индексатор использует FP8, в то время как основной MLA использует 16-битный формат, так что = 64/576 = 1/9.