Les évaluations des agents de codage sont utiles pour améliorer votre agent, mais pas pour prouver qu'il est le meilleur (quoi que cela signifie). C'est pourquoi nous ne parlons pas publiquement des évaluations. Mais beaucoup de gens demandent, donc voici une explication plus longue sur pourquoi elles ne sont pas significatives pour la comparaison entre agents. Hier soir, sur un coup de tête, j'ai exécuté les évaluations Next.js[0] contre @AmpCode et j'ai obtenu [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, bien au-dessus du suivant le plus élevé (Claude Code) à 42%. J'ai ensuite demandé à d'autres personnes d'essayer de reproduire ces résultats. D'autres personnes ont obtenu [REDACTED]% pour Amp, certains avec un AGENTS𛲔md qui se lisait comme suit : > Lorsqu'on travaille sur un projet Next.js, exécutez toujours `npm exec tsc -b` pour vérifier les erreurs de type, puis `npm run build` et `npm run test`, avant de terminer. Corrigez toutes les erreurs que vous voyez et réessayez jusqu'à ce qu'il n'y ait plus d'erreurs. En utilisant Claude Code avec cela dans le CLAUDE𛲔md, il a atteint 72% (contre 40-42% sans). Leçons à retenir : • Un simple fichier AGENTS𛲔md augmente massivement le taux de réussite (en pratique, presque tous les utilisateurs réels en ont un, mais les évaluations en fournissent rarement un) • Forte variabilité entre les exécutions (il est particulièrement difficile de rendre les agents de codage déterministes) • Il existe tant d'opportunités pour d'autres types de dérives involontaires (cela me rend nerveux que la plupart des résultats de Terminal Bench ne soient pas validés indépendamment, par exemple) De plus, avec tant de différents ensembles d'évaluations disponibles maintenant, vous n'entendrez que les affirmations des créateurs d'agents pour les évaluations sur lesquelles ils réussissent bien (p-hacking rencontre "Pourquoi la plupart des résultats de recherche publiés sont faux"). Il serait malhonnête de prétendre que ces chiffres signifient qu'Amp est le meilleur. C'est juste trop artificiel comme environnement et il y a trop de hasard. Et je ne pense pas que quiconque ait vraiment choisi un agent de codage à cause des résultats de référence, encore moins ceux rapportés par la première partie. Mais les évaluations nous aident à améliorer Amp. Vous pouvez voir d'un rapport qu'Amp a échoué à certains cas à chaque fois, ce que nous allons examiner. Et nous faisons toutes sortes d'évaluations étroites, comme pour notre sous-agent de recherche[1]. NOTE : Ceci n'est pas censé être une critique des évaluations Next.js /du tout/. C'est un excellent ensemble d'évaluations dans l'ensemble et sert son but pour nous aider à améliorer Amp sur les choses Next.js. [REDACTED] : J'ai obtenu 50-58% dans mes évaluations initiales d'Amp, et d'autres ont obtenu 48-76%.