一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

推理模型在传统基准测试中运行成本高，但在自主工作流中，随着它们在更少的回合中得出答案，成本往往会降低。到2025年，我们看到测试时的计算推动了前沿智能的成本上升，但在自主工作流中有一个关键区别：快速得出答案可以减少回合数，尽管每个回合的成本更高。

GPQA Diamond 和 𝜏²-Bench Telecom（一个要求模型在客户服务角色中行动的代理基准）都显示出 GPT-5 和 o3 相较于 GPT-4.1 的超常表现，但尽管推理模型运行 GPQA 的成本超过 10 倍，在 𝜏² 的客户服务环境中，它们的成本与 GPT-4.1 大致相同。o3 和 GPT-4.1 现在的令牌成本相等，因此这些差异完全是由效率驱动的。

9.85K