熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
雖然 Moonshot AI 的 Kimi k2 是人工智慧分析智慧指數中領先的開放權重非推理模型,但它輸出的代幣數量是其他非推理模型的 ~3 倍,模糊了推理與非推理之間的界線
Kimi k2 是迄今為止最大的主要開放權重模型 - 總參數為 1T,活動容量為 32B(這需要原生 FP1 的 8TB 大內存來保持權重)。我們在人工智慧分析智慧指數中的 k2 為 57,這是一個令人印象深刻的分數,使其高於 GPT-4.1 和 DeepSeek V3 等模型,但落後於領先的推理模型。
到目前為止,在我們的評估中,推理模型和非推理模型之間已經有明顯的區別——不僅由模型是否使用<reasoning>標籤來定義,而且主要由標記使用來定義。用於回答人工智慧分析智慧指數中所有評估的標記數量中位數,推理模型比非推理模型高 ~10 倍。
@Kimi_Moonshot 的 Kimi k2 使用的標記數量是中位數非推理模型使用的標記數量的 ~3 倍。當以最大預算擴展思維模式運行時,其令牌使用量僅比 Claude 4 Sonnet 和 Opus 低 30%,並且幾乎是 Claude 4 Sonnet 和 Opus 在關閉推理的情況下的令牌使用量的三倍。
因此,我們建議將 Kimi k2 與 Claude 4 Sonnet 和 Opus 在最大預算擴展思維模式下進行比較,而不是與 Claude 4 模型的非推理分數進行比較。
Kimi k2 可在 @Kimi_Moonshot 的第一方 API 以及 @FireworksAI_HQ、@togethercompute、@novita_labs 和 @parasail_io 上使用。
請參閱下文和人工分析以進行進一步分析 👇



60.52K
熱門
排行
收藏