Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Os modelos de raciocínio são caros para executar com benchmarks tradicionais, mas geralmente ficam mais baratos em fluxos de trabalho agenciais, pois obtêm respostas em menos turnos
Até 2025, vimos a computação em tempo de teste aumentar o custo da inteligência de fronteira, mas com os fluxos de trabalho agenciais há uma diferença fundamental: chegar à resposta rapidamente pode reduzir o número de turnos, apesar de cada turno custar mais.

GPQA Diamond e τ²-Bench Telecom (um benchmark agênico que exige que os modelos atuem em uma função de atendimento ao cliente) mostram desempenho descomunal para GPT-5 e o3 em comparação com GPT-4.1, mas enquanto os modelos de raciocínio custam >10x para executar o GPQA, no ambiente de atendimento ao cliente do τ² eles custam aproximadamente o mesmo que GPT-4.1. o3 e GPT-4.1 agora têm custos de token iguais, portanto, essas diferenças são impulsionadas inteiramente pela eficiência.


9,74K
Melhores
Classificação
Favoritos