Les modèles de raisonnement sont coûteux à exécuter avec des benchmarks traditionnels, mais deviennent souvent moins chers dans des flux de travail agentiques car ils parviennent à des réponses en moins de tours. D'ici 2025, nous avons constaté que le calcul au moment du test a fait grimper le coût de l'intelligence de pointe, mais avec des flux de travail agentiques, il y a une différence clé : parvenir rapidement à la réponse peut réduire le nombre de tours malgré le fait que chaque tour coûte plus cher.
GPQA Diamond et 𝜏²-Bench Telecom (un benchmark agentique nécessitant que les modèles agissent dans un rôle de service client) montrent tous deux des performances exceptionnelles pour GPT-5 et o3 par rapport à GPT-4.1, mais alors que les modèles de raisonnement coûtent plus de 10 fois pour exécuter GPQA, dans l'environnement de service client de 𝜏², ils coûtent à peu près le même prix que GPT-4.1. o3 et GPT-4.1 ont maintenant des coûts de jetons équivalents, donc ces différences sont entièrement dues à l'efficacité.
9,88K