Los modelos de razonamiento son costosos de ejecutar con los puntos de referencia tradicionales, pero a menudo se vuelven más baratos en los flujos de trabajo agentianos a medida que obtienen respuestas en menos turnos A lo largo de 2025, hemos visto que la computación en tiempo de prueba aumenta el costo de la inteligencia de frontera, pero con los flujos de trabajo agenticos hay una diferencia clave: llegar a la respuesta rápidamente puede reducir la cantidad de turnos a pesar de que cada turno cuesta más.
GPQA Diamond y τ²-Bench Telecom (un punto de referencia agentic que requiere que los modelos actúen en un rol de servicio al cliente) muestran un rendimiento descomunal para GPT-5 y o3 en comparación con GPT-4.1, pero mientras que los modelos de razonamiento cuestan >10 veces para ejecutar GPQA, en el entorno de servicio al cliente de τ² cuestan aproximadamente lo mismo que GPT-4.1. o3 y GPT-4.1 ahora tienen costos de token iguales, por lo que estas diferencias están impulsadas completamente por la eficiencia.
9.86K