一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

傳統基準測試中，推理模型的運行成本很高，但在代理工作流程中，因為能更快得到答案，成本通常會降低。到2025年，我們看到測試時的計算驅動了前沿智能的成本上升，但在代理工作流程中有一個關鍵的區別：快速得到答案可以減少回合數，儘管每回合的成本更高。

GPQA Diamond 和 𝜏²-Bench Telecom（這是一個要求模型在客戶服務角色中行動的代理基準）都顯示出 GPT-5 和 o3 相較於 GPT-4.1 的表現超出預期，但雖然推理模型運行 GPQA 的成本超過 10 倍，然而在 𝜏² 的客戶服務環境中，它們的成本與 GPT-4.1 大致相同。o3 和 GPT-4.1 現在的代幣成本相等，因此這些差異完全是由效率驅動的。

9.85K