热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
推理模型在传统基准测试中运行成本高,但在自主工作流中,随着它们在更少的回合中得出答案,成本往往会降低。
到2025年,我们看到测试时的计算推动了前沿智能的成本上升,但在自主工作流中有一个关键区别:快速得出答案可以减少回合数,尽管每个回合的成本更高。

GPQA Diamond 和 𝜏²-Bench Telecom(一个要求模型在客户服务角色中行动的代理基准)都显示出 GPT-5 和 o3 相较于 GPT-4.1 的超常表现,但尽管推理模型运行 GPQA 的成本超过 10 倍,在 𝜏² 的客户服务环境中,它们的成本与 GPT-4.1 大致相同。o3 和 GPT-4.1 现在的令牌成本相等,因此这些差异完全是由效率驱动的。


9.85K
热门
排行
收藏