虽然 Moonshot AI 的 Kimi k2 是人工智能分析智能指数中领先的开放权重非推理模型,但它输出的代币是其他非推理模型的 ~3 倍,模糊了推理和非推理之间的界限 Kimi k2 是迄今为止最大的主要开放权重模型 - 1T 总参数,32B 活动(这需要原生 FP1 的 8TB 海量内存来保存权重)。我们在人工智能分析智能指数中的 k2 为 57,这是一个令人印象深刻的分数,使其高于 GPT-4.1 和 DeepSeek V3 等模型,但落后于领先的推理模型。 到目前为止,在我们的评估中,推理模型和非推理模型之间已经有明显的区别——不仅取决于模型是否使用<reasoning>标签,而且主要取决于标记的使用。推理模型用于回答人工智能分析智能指数中所有评估的标记数中位数比非推理模型高 ~10 倍。 @Kimi_Moonshot 的 Kimi k2 使用的标记数量是中位数非推理模型使用的标记数量的 ~3 倍。当在最大预算扩展思维模式下运行时,它的令牌使用量仅比 Claude 4 Sonnet 和 Opus 低 30%,并且几乎是 Claude 4 Sonnet 和 Opus 在关闭推理的情况下的令牌使用量的三倍。 因此,我们建议将 Kimi k2 与 Claude 4 Sonnet 和 Opus 的最大预算扩展思维模式进行比较,而不是与 Claude 4 模型的非推理分数进行比较。 Kimi k2 可在 @Kimi_Moonshot 的第一方 API 以及 @FireworksAI_HQ、@togethercompute、@novita_labs 和 @parasail_io 上使用。 有关进一步分析👇,请参阅下文和人工分析
60.52K