Os modelos de raciocínio são caros para executar com benchmarks tradicionais, mas geralmente ficam mais baratos em fluxos de trabalho agenciais, pois obtêm respostas em menos turnos Até 2025, vimos a computação em tempo de teste aumentar o custo da inteligência de fronteira, mas com os fluxos de trabalho agenciais há uma diferença fundamental: chegar à resposta rapidamente pode reduzir o número de turnos, apesar de cada turno custar mais.
GPQA Diamond e τ²-Bench Telecom (um benchmark agênico que exige que os modelos atuem em uma função de atendimento ao cliente) mostram desempenho descomunal para GPT-5 e o3 em comparação com GPT-4.1, mas enquanto os modelos de raciocínio custam >10x para executar o GPQA, no ambiente de atendimento ao cliente do τ² eles custam aproximadamente o mesmo que GPT-4.1. o3 e GPT-4.1 agora têm custos de token iguais, portanto, essas diferenças são impulsionadas inteiramente pela eficiência.
9,74K