Como esperado, o NSA não é compatível com o MLA, então o DeepSeek escolheu outro método: use uma atenção menor (d = 128) (sem valor) como indexador. Razão de custo assintótico = 128/576. Além disso, o indexador usa FP8 enquanto o MLA principal usa 16 bits, então = 64/576 = 1/9.