Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Les modèles de raisonnement sont coûteux à exécuter avec des benchmarks traditionnels, mais deviennent souvent moins chers dans des flux de travail agentiques car ils parviennent à des réponses en moins de tours.
D'ici 2025, nous avons constaté que le calcul au moment du test a fait grimper le coût de l'intelligence de pointe, mais avec des flux de travail agentiques, il y a une différence clé : parvenir rapidement à la réponse peut réduire le nombre de tours malgré le fait que chaque tour coûte plus cher.

GPQA Diamond et 𝜏²-Bench Telecom (un benchmark agentique nécessitant que les modèles agissent dans un rôle de service client) montrent tous deux des performances exceptionnelles pour GPT-5 et o3 par rapport à GPT-4.1, mais alors que les modèles de raisonnement coûtent plus de 10 fois pour exécuter GPQA, dans l'environnement de service client de 𝜏², ils coûtent à peu près le même prix que GPT-4.1. o3 et GPT-4.1 ont maintenant des coûts de jetons équivalents, donc ces différences sont entièrement dues à l'efficacité.


9,88K
Meilleurs
Classement
Favoris

