熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Artificial Analysis
獨立分析 AI 模型和託管供應商 - 為您的用例選擇最佳模型和 API 供應商
IBM 推出了 Granite 4.0 - 一個新的開放權重語言模型系列,大小範圍從 3B 到 32B。人工分析在發布前提供了訪問權限,我們的基準測試顯示 Granite 4.0 H Small(32B/9B 總/活躍參數)在智力指數上得分 23,特別在標記效率方面表現出色。
今天 IBM 發布了四個新模型:Granite 4.0 H Small(32B/9B 總/活躍參數)、Granite 4.0 H Tiny(7B/1B)、Granite 4.0 H Micro(3B/3B)和 Granite 4.0 Micro(3B/3B)。我們使用人工分析智力指數評估了 Granite 4.0 Small(在非推理模式下)和 Granite 4.0 Micro。Granite 4.0 模型結合了一小部分標準變壓器風格的注意力層和大多數 Mamba 層,聲稱在不影響性能的情況下減少內存需求。
關鍵基準測試要點:
➤🧠 Granite 4.0 H Small 智力:在非推理模式下,Granite 4.0 H Small 在人工分析智力指數上得分 23,比 IBM Granite 3.3 8B(非推理)提高了 +8 分。Granite 4.0 H Small 超過了 Gemma 3 27B(22),但落後於 Mistral Small 3.2(29)、EXAONE 4.0 32B(非推理,30)和 Qwen3 30B A3B 2507(非推理,37)在智力方面。
➤⚡ Granite 4.0 Micro 智力:在人工分析智力指數上,Granite 4.0 Micro 得分 16。它超過了 Gemma 3 4B(15)和 LFM 2 2.6B(12)。
➤⚙️ 標記效率:Granite 4.0 H Small 和 Micro 展示了令人印象深刻的標記效率 - Granite 4.0 Small 使用 5.2M,而 Granite 4.0 Micro 使用 6.7M 標記來運行人工分析智力指數。這兩個模型使用的標記數量少於 Granite 3.3 8B(非推理)和大多數其他小於 40B 總參數的開放權重非推理模型(除了 Qwen3 0.6B,該模型使用 1.9M 輸出標記)。
關鍵模型細節:
➤🌐 可用性:所有四個模型均可在 Hugging Face 上獲得。Granite 4.0 H Small 可在 Replicate 上獲得,價格為每 1M 輸入/輸出標記 $0.06/$0.25。
➤📏 上下文窗口:128K 標記。
➤©️ 許可:Granite 4.0 模型在 Apache 2.0 許可下可用。


13.77K
DeepSeek 已推出 V3.2 Exp,採用其新的 DeepSeek Sparse Attention (DSA) 架構,聲稱能減少計算隨上下文長度的平方擴展影響。
我們獨立基準測試 V3.2 Exp,發現其智能水平與 DeepSeek V3.1 Terminus 相似;DeepSeek 已轉向使用 V3.2 作為其主要 API 端點,並將 API 價格降低了超過 50%。隨著 DeepSeek 更新的第一方 API 價格,運行人工分析智能指數的成本從 $114 降至 $41。
DeepSeek 聲稱已“故意對齊” V3.1 Terminus 和 V3.2 Exp 的訓練配置。匹配 V3.1 Terminus 的性能似乎表明,DeepSeek Sparse Attention 架構的性能優勢並不以智能為代價。
關鍵基準測試要點:
➤🧠 整體智能無變化:在推理模式下,DeepSeek V3.2 Exp 在人工分析智能指數上得分 57。我們認為這與 DeepSeek V3.1 Terminus (推理) 的智能水平相當。
➤📈 長上下文推理無下降:儘管 DeepSeek 的架構發生了變化,V3.2 Exp (推理) 似乎在長上下文推理上沒有顯示出任何下降 - 在 AA-LCR 上得分略有提升。
➤⚡ 非推理性能:在非推理模式下,DeepSeek V3.2 Exp 在智能上沒有退化,與 DeepSeek V3.1 Terminus 在人工分析智能指數上得分 46 相匹配。
➤⚙️ 令牌效率:對於 DeepSeek V3.2 Exp (推理),運行人工分析智能指數的令牌使用量從 V3.1 Terminus 的 67M 輕微減少至 62M。非推理變體的令牌使用量保持不變。
➤💲 價格:DeepSeek 顯著降低了其第一方 API 的每令牌價格,從 $0.56/$1.68 降至每 1M 輸入/輸出令牌的 $0.28/$0.42 - 分別降低了 50% 和 75% 的輸入和輸出令牌價格。
其他模型詳情:
➤©️ 授權:DeepSeek V3.2 Exp 在 MIT 許可下提供。
➤🌐 可用性:DeepSeek V3.2 Exp 可通過 DeepSeek API 獲得,該 API 已取代 DeepSeek V3.1 Terminus。用戶仍然可以通過臨時 DeepSeek API 訪問 DeepSeek V3.1 Terminus,直到 10 月 15 日。
➤📏 大小:DeepSeek V3.2 Exp 擁有 671B 總參數和 37B 活躍參數。這與 DeepSeek V3 和 R1 系列的所有先前模型相同。

40.28K
ServiceNow 已經發布了 Apriel-v1.5-15B-Thinker,這是一個 15B 開放權重的推理模型,領先於我們的小型模型類別(<40B 參數)
💼 概述:Apriel-v1.5-15B-Thinker 是一個密集型的 15B 參數開放權重推理模型。這不是 ServiceNow 發布的第一個模型,但與過去的發布相比,這是一個在智能上實質性的飛躍
🧠 智能:該模型在人工分析智能指數中得分 52。這使其與 DeepSeek R1 0528 相當,後者擁有更大 685B 參數架構。ServiceNow 的模型在企業代理的重要行為中得分特別好,例如指令遵循(在 IFBench 中得分 62%,超過 gpt-oss-20B,推理)和多輪對話及工具使用(在 𝜏²-Bench Telecom 中得分 68%,超過 gpt-oss-120B,推理)。這使其特別適合於代理使用案例,這可能是因為 ServiceNow 在企業代理領域活躍
⚙️ 輸出標記和冗長性:該模型即使在推理模型中也產生大量的輸出標記 - 使用約 110M 的推理和回答標記來完成人工分析智能指數
🖥️ 訪問:目前還沒有無伺服器推理提供者提供該模型,但它現在可以在 Hugging Face 上進行本地推理或自我部署。該模型已根據 MIT 許可證發布,支持不受限制的商業使用
ℹ️ 上下文窗口:該模型具有 128k 標記的原生上下文窗口。
恭喜 @ServiceNowRSRCH 獲得這一令人印象深刻的結果!

71.05K
熱門
排行
收藏