Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modelos de raciocínio são caros de executar com benchmarks tradicionais, mas muitas vezes tornam-se mais baratos em fluxos de trabalho agentes, pois chegam às respostas em menos etapas.
Até 2025, vimos que o tempo de computação durante os testes aumentou o custo da inteligência de fronteira, mas com fluxos de trabalho agentes há uma diferença chave: chegar à resposta rapidamente pode reduzir o número de etapas, apesar de cada etapa custar mais.

O GPQA Diamond e o 𝜏²-Bench Telecom (um benchmark agentic que exige que os modelos atuem em um papel de atendimento ao cliente) mostram ambos um desempenho desproporcional para o GPT-5 e o o3 em comparação com o GPT-4.1, mas enquanto os modelos de raciocínio custam mais de 10x para executar o GPQA, no ambiente de atendimento ao cliente do 𝜏², eles custam aproximadamente o mesmo que o GPT-4.1. O o3 e o GPT-4.1 agora têm custos de token iguais, portanto, essas diferenças são impulsionadas inteiramente pela eficiência.


9,89K
Top
Classificação
Favoritos

