Como esperado, a NSA não é compatível com a MLA, então a DeepSeek escolheu outro método: usar uma atenção menor (d=128) (sem valor) como indexador. A razão de custo assintótica = 128/576. Além disso, o indexador usa FP8 enquanto a MLA principal usa 16 bits, então = 64/576 = 1/9.