DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

As avaliações do agente de codificação são úteis para melhorar seu agente, mas não para provar que é o melhor (o que quer que isso signifique). É por isso que não falamos publicamente sobre avaliações. Mas muitas pessoas perguntam, então aqui está uma explicação mais longa de por que eles não são significativos para a comparação entre agentes. Ontem à noite, por capricho, executei as avaliações Next.js [0] contra @AmpCode e obtive [REDIGIDO; não quero que isso seja sobre os números, mas role para baixo se estiver curioso]], bem acima do próximo mais alto (Claude Code) em 42%. Então pedi a outras pessoas que tentassem replicar esses resultados. Outras pessoas obtiveram [REDIGIDO]% para Amp, algumas com um AGENTS𛲔md que dizia o seguinte: > Ao trabalhar em um projeto Next.js, sempre execute 'npm exec tsc -b' para verificar se há erros de tipo e, em seguida, 'npm run build' e 'npm run test', antes de terminar. Corrija os erros que você vê e tente novamente até que não haja erros. Ao usar o Claude Code com isso no CLAUDE𛲔md, ele chegou a 72% (acima de 40-42% sem). Takeaways: • Um simples arquivo AGENTS𛲔md aumenta enormemente a taxa de sucesso (na prática ~ todos os usuários reais têm um, mas as avaliações raramente fornecem um) • Alta variabilidade entre execuções (é especialmente difícil tornar os agentes de codificação determinísticos) • Existem tantas oportunidades para outros tipos de desvio não intencional (me deixa nervoso que a maioria dos resultados do Terminal Bench não sejam validados de forma independente, por exemplo) Além disso, com tantos conjuntos de avaliação diferentes por aí agora, você só ouvirá as alegações dos fabricantes de agentes para as avaliações em que eles se saem bem (p-hacking atende a "Por que a maioria dos resultados de pesquisas publicados são falsos"). Seria desonesto afirmar que esses números significam que o Amp é o melhor. É um ambiente muito artificial e há muita aleatoriedade. E eu não acho que alguém realmente tenha escolhido um agente de codificação por causa dos resultados de benchmark, muito menos os relatados pela 1ª parte. Mas as avaliações nos ajudam a tornar o Amp melhor. Você pode ver em um relatório que a Amp falhou em certos casos todas as vezes, o que analisaremos. E fazemos todos os tipos de avaliações estreitas, como para o nosso subagente de pesquisa[1]. NOTA: Isso não pretende ser uma crítica às avaliações Next.js /at all/. É um ótimo conjunto de avaliação em geral e serve ao seu propósito de nos ajudar a tornar o Amp melhor em Next.js coisas. [REDIGIDO]: Obtive 50-58% em minhas avaliações iniciais de Amp e outros obtiveram 48-76%.

Melhores

Classificação

Favoritos