Модели рассуждений дорого обходятся при использовании традиционных бенчмарков, но часто становятся дешевле в агентных рабочих процессах, так как они приходят к ответам за меньшее количество шагов. К 2025 году мы увидели, что вычисления во время тестирования увеличивают стоимость передового интеллекта, но в агентных рабочих процессах есть ключевое отличие: быстрое получение ответа может сократить количество шагов, несмотря на то, что каждый шаг стоит дороже.
GPQA Diamond и 𝜏²-Bench Telecom (агентный бенчмарк, требующий от моделей выполнения роли в службе поддержки клиентов) показывают выдающиеся результаты для GPT-5 и o3 по сравнению с GPT-4.1, но в то время как модели рассуждений стоят более 10 раз дороже для запуска GPQA, в среде обслуживания клиентов 𝜏² они стоят примерно столько же, сколько GPT-4.1. o3 и GPT-4.1 теперь имеют равные затраты на токены, поэтому эти различия полностью обусловлены эффективностью.
9,89K