Моделі міркувань дорогі в роботі з традиційними бенчмарками, але часто дешевшають в агентичних робочих процесах, оскільки вони отримують відповіді за меншу кількість ходів Протягом 2025 року ми бачили, як обчислення під час тестування підвищували вартість прикордонної розвідки, але з агентними робочими процесами є ключова відмінність: швидке отримання відповіді може скоротити кількість ходів, незважаючи на те, що кожен хід коштує дорожче.
GPQA Diamond і τ²-Bench Telecom (агентичний еталон, який вимагає від моделей діяти в ролі обслуговування клієнтів) обидва демонструють надзвичайну продуктивність для GPT-5 і o3 в порівнянні з GPT-4.1, але в той час як моделі обґрунтування коштують >10x для запуску GPQA, в середовищі обслуговування клієнтів τ² вони коштують приблизно стільки ж, скільки GPT-4.1. o3 і GPT-4.1 тепер мають однакову вартість токенів, тому ці відмінності повністю обумовлені ефективністю.
9,85K