Modelos de raciocínio são caros de executar com benchmarks tradicionais, mas muitas vezes tornam-se mais baratos em fluxos de trabalho agentes, pois chegam às respostas em menos etapas. Até 2025, vimos que o tempo de computação durante os testes aumentou o custo da inteligência de fronteira, mas com fluxos de trabalho agentes há uma diferença chave: chegar à resposta rapidamente pode reduzir o número de etapas, apesar de cada etapa custar mais.
O GPQA Diamond e o 𝜏²-Bench Telecom (um benchmark agentic que exige que os modelos atuem em um papel de atendimento ao cliente) mostram ambos um desempenho desproporcional para o GPT-5 e o o3 em comparação com o GPT-4.1, mas enquanto os modelos de raciocínio custam mais de 10x para executar o GPQA, no ambiente de atendimento ao cliente do 𝜏², eles custam aproximadamente o mesmo que o GPT-4.1. O o3 e o GPT-4.1 agora têm custos de token iguais, portanto, essas diferenças são impulsionadas inteiramente pela eficiência.
9,89K