热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Artificial Analysis
独立分析 AI 模型和托管提供商 - 为您的用例选择最佳模型和 API 提供商
DeepSeek 已推出 V3.2 Exp,采用其新的 DeepSeek 稀疏注意力 (DSA) 架构,声称可以减少计算在上下文长度上的平方扩展影响。
我们独立基准测试了 V3.2 Exp,发现其智能水平与 DeepSeek V3.1 Terminus 相似;DeepSeek 已切换到使用 V3.2 作为其主要 API 端点,并将 API 定价降低了超过 50%。随着 DeepSeek 更新的第一方 API 定价,运行人工分析智能指数的成本从 $114 降至 $41。
DeepSeek 声称已“故意对齐” V3.1 Terminus 和 V3.2 Exp 的训练配置。与 V3.1 Terminus 的性能匹配似乎表明,DeepSeek 稀疏注意力架构的性能优势并未以牺牲智能为代价。
关键基准测试要点:
➤🧠 总体智能没有变化:在推理模式下,DeepSeek V3.2 Exp 在人工分析智能指数上得分 57。我们认为这与 DeepSeek V3.1 Terminus(推理)的智能水平相当。
➤📈 长上下文推理没有下降:尽管 DeepSeek 的架构发生了变化,V3.2 Exp(推理)似乎在长上下文推理上没有表现出任何下降 - 在 AA-LCR 上得分略有提升。
➤⚡ 非推理性能:在非推理模式下,DeepSeek V3.2 Exp 在智能上没有退化,得分 46,与 DeepSeek V3.1 Terminus 相匹配,均在人工分析智能指数上得分。
➤⚙️ 令牌效率:对于 DeepSeek V3.2 Exp(推理),运行人工分析智能指数的令牌使用量从 V3.1 Terminus 的 67M 稍微减少到 62M。非推理变体的令牌使用量保持不变。
➤💲 定价:DeepSeek 已显著降低其第一方 API 的每个令牌定价,从 $0.56/$1.68 降至 $0.28/$0.42 每 1M 输入/输出令牌 - 输入和输出令牌的定价分别降低了 50% 和 75%。
其他模型细节:
➤©️ 许可:DeepSeek V3.2 Exp 在 MIT 许可证下提供。
➤🌐 可用性:DeepSeek V3.2 Exp 通过 DeepSeek API 提供,已替代 DeepSeek V3.1 Terminus。用户仍可以通过临时 DeepSeek API 访问 DeepSeek V3.1 Terminus,直到 10 月 15 日。
➤📏 大小:DeepSeek V3.2 Exp 具有 671B 的总参数和 37B 的活跃参数。这与 DeepSeek V3 和 R1 系列的所有先前模型相同。

37.89K
ServiceNow 发布了 Apriel-v1.5-15B-Thinker,这是一个 15B 开放权重推理模型,领先于我们的“小模型”类别(<40B 参数)
💼 概述:Apriel-v1.5-15B-Thinker 是一个密集型的 15B 参数开放权重推理模型。这不是 ServiceNow 发布的第一个模型,但与过去的发布相比,智能水平有了显著提升。
🧠 智能:该模型在人工分析智能指数中得分 52。这使其与 DeepSeek R1 0528 相当,后者拥有更大的 685B 参数架构。ServiceNow 的模型在企业代理的重要行为方面得分特别高,例如指令遵循(在 IFBench 中得分 62%,领先于 gpt-oss-20B,推理)和多轮对话及工具使用(在 𝜏²-Bench Telecom 中得分 68%,领先于 gpt-oss-120B,推理)。这使其特别适合代理使用案例,这可能是考虑到 ServiceNow 在企业代理领域活跃的原因。
⚙️ 输出令牌和冗长性:该模型即使在推理模型中也会产生大量输出令牌 - 使用约 110M 的推理和答案令牌来完成人工分析智能指数。
🖥️ 访问:目前没有无服务器推理提供商提供该模型,但它现在可以在 Hugging Face 上进行本地推理或自我部署。该模型已根据 MIT 许可证发布,支持无限制的商业使用。
ℹ️ 上下文窗口:该模型的原生上下文窗口为 128k 令牌。
祝贺 @ServiceNowRSRCH 取得这一令人印象深刻的成果!

70.96K
Luma Labs 的 Ray 3 在人工分析视频领域的文本转视频中排名第二,仅次于谷歌的 Veo 3!
@LumaLabsAI 已推出 Ray 3,这是他们 Ray 2 模型的重大升级,在文本转视频中排名第二,在图像转视频中排名第七,位于人工分析视频排行榜上。
Ray 3 采用链式思维方法,对视频生成进行迭代,在每一步分析以确保质量和及时性。该模型支持 T2V 和 I2V 生成,视频时长可达 10 秒,分辨率为 1080p。
除了典型的 SDR 生成外,Ray 3 还引入了 16 位 HDR 支持——这是行业首创。这使得可以从 SDR 图像生成 HDR 视频,甚至将现有的 SDR 视频转换为 HDR。
目前,Ray 3 仅在 Luma Dream Machine 上可用,API 访问尚未开放。
在人工分析视频领域亲自体验 Ray 3 🧵


10.77K
热门
排行
收藏