熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
傳統基準測試中,推理模型的運行成本很高,但在代理工作流程中,因為能更快得到答案,成本通常會降低。
到2025年,我們看到測試時的計算驅動了前沿智能的成本上升,但在代理工作流程中有一個關鍵的區別:快速得到答案可以減少回合數,儘管每回合的成本更高。

GPQA Diamond 和 𝜏²-Bench Telecom(這是一個要求模型在客戶服務角色中行動的代理基準)都顯示出 GPT-5 和 o3 相較於 GPT-4.1 的表現超出預期,但雖然推理模型運行 GPQA 的成本超過 10 倍,然而在 𝜏² 的客戶服務環境中,它們的成本與 GPT-4.1 大致相同。o3 和 GPT-4.1 現在的代幣成本相等,因此這些差異完全是由效率驅動的。


9.85K
熱門
排行
收藏