Rencontrez Agent Bake-Off : des tests à l'aveugle côte à côte pour des agents de codage comme Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex, et plus encore. Nous avons construit les plus grands benchmarks du monde réel pour les agents de codage, et nous sommes ravis de partager un aperçu précoce de nos outils communautaires ouverts.
Les données d'utilisation dans le monde réel sur la façon dont les agents sont utilisés et acquis deviendront plus importantes à mesure que les agents deviendront courants. Nous voulons que tout le monde puisse effectuer des comparaisons équitables, contribuer à des classements publics et ancrer l'écosystème dans de vraies préférences. Essayez-le ici :
C'est super simple en ce moment : - choisissez un dépôt public préétabli - entrez une tâche - nous l'exécutons sur deux agents anonymes avec le même contexte Certaines tâches peuvent prendre un certain temps, donc vous pouvez soumettre votre e-mail pour recevoir une notification lorsque les résultats sont prêts.
Lorsque cela se termine, vous obtenez : - des résultats côte à côte et des différences - des métadonnées comme des notes de raisonnement, des outils utilisés et le temps passé - un vote à l'aveugle pour choisir le meilleur résultat Vos votes et vos exécutions alimentent les classements publics de la communauté.
Ceci est encore une version très précoce, et nous sommes impatients de voir ce qui est utile aux gens. Certaines zones que nous explorons sont : à quoi ressemble une meilleure interface utilisateur/expérience utilisateur pour examiner le travail agentique parallélisé, quelles métadonnées et tâches sont précieuses, etc. *Particulièrement* pour une utilisation dans le monde réel
Nous allons également mettre à jour constamment Agent Bake-Off pour ajouter plus d'agents de frontière, d'autres sous-ensembles d'agents (agents de révision PR, agents de sécurité/de garde, etc.), pour voir si les gens souhaitent avoir la possibilité d'apporter leurs propres dépôts publics/privés, etc.
Nous travaillons dur pour créer les plus grands benchmarks et classements du monde réel pour les agents. L'Agent Bake-Off est un petit premier pas. Veuillez l'essayer, voter et nous donner vos retours sur ce que vous trouveriez utile !!!
14,85K