As avaliações de agentes de codificação são úteis para melhorar o seu agente, mas não para provar que é o melhor (seja lá o que isso significa). É por isso que não falamos publicamente sobre avaliações. Mas muitas pessoas perguntam, então aqui está uma explicação mais longa de por que elas não são significativas para comparação entre agentes. Na noite passada, por impulso, executei as avaliações do Next.js[0] contra @AmpCode e obtive [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, bem acima do próximo mais alto (Claude Code) com 42%. Depois pedi a algumas outras pessoas para tentar replicar esses resultados. Outras pessoas obtiveram [REDACTED]% para Amp, algumas com um AGENTS𛲔md que dizia o seguinte: > Ao trabalhar em um projeto Next.js, sempre execute `npm exec tsc -b` para verificar erros de tipo, e depois `npm run build` e `npm run test`, antes de finalizar. Corrija quaisquer erros que você veja e tente novamente até que não haja erros. Ao usar Claude Code com isso no CLAUDE𛲔md, ele chegou a 72% (subindo de 40-42% sem). Principais conclusões: • Um simples arquivo AGENTS𛲔md aumenta massivamente a taxa de sucesso (na prática, ~todos os usuários reais têm um, mas as avaliações raramente fornecem um) • Alta variabilidade entre execuções (é especialmente difícil fazer agentes de codificação determinísticos) • Existem muitas oportunidades para outros tipos de desvios não intencionais (me deixa nervoso que a maioria dos resultados do Terminal Bench não sejam validados de forma independente, por exemplo) Além disso, com tantos conjuntos de avaliações diferentes por aí agora, você só ouvirá as alegações dos criadores de agentes para as avaliações nas quais eles se saem bem (p-hacking encontra "Por que a maioria das descobertas de pesquisa publicadas são falsas"). Seria desonesto afirmar que esses números significam que Amp é o melhor. É apenas um ambiente muito artificial e há muita aleatoriedade. E eu não acho que alguém realmente tenha escolhido um agente de codificação por causa dos resultados de benchmark, muito menos os relatados de primeira mão. Mas as avaliações nos ajudam a melhorar o Amp. Você pode ver em um relatório que o Amp falhou em certos casos todas as vezes, o que vamos investigar. E fazemos todo tipo de avaliações específicas, como para nosso subagente de busca[1]. NOTA: Isso não é uma crítica às avaliações do Next.js /de forma alguma/. É um ótimo conjunto de avaliações no geral e serve ao seu propósito de nos ajudar a melhorar o Amp em coisas do Next.js. [REDACTED]: Eu obtive 50-58% nas minhas avaliações iniciais do Amp, e outros obtiveram 48-76%.