Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Rencontrez Agent Bake-Off : des tests à l'aveugle côte à côte pour des agents de codage comme Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex, et plus encore.
Nous avons construit les plus grands benchmarks du monde réel pour les agents de codage, et nous sommes ravis de partager un aperçu précoce de nos outils communautaires ouverts.
Les données d'utilisation dans le monde réel sur la façon dont les agents sont utilisés et acquis deviendront plus importantes à mesure que les agents deviendront courants.
Nous voulons que tout le monde puisse effectuer des comparaisons équitables, contribuer à des classements publics et ancrer l'écosystème dans de vraies préférences.
Essayez-le ici :
C'est super simple en ce moment :
- choisissez un dépôt public préétabli
- entrez une tâche
- nous l'exécutons sur deux agents anonymes avec le même contexte
Certaines tâches peuvent prendre un certain temps, donc vous pouvez soumettre votre e-mail pour recevoir une notification lorsque les résultats sont prêts.

Lorsque cela se termine, vous obtenez :
- des résultats côte à côte et des différences
- des métadonnées comme des notes de raisonnement, des outils utilisés et le temps passé
- un vote à l'aveugle pour choisir le meilleur résultat
Vos votes et vos exécutions alimentent les classements publics de la communauté.

Ceci est encore une version très précoce, et nous sommes impatients de voir ce qui est utile aux gens.
Certaines zones que nous explorons sont : à quoi ressemble une meilleure interface utilisateur/expérience utilisateur pour examiner le travail agentique parallélisé, quelles métadonnées et tâches sont précieuses, etc.
*Particulièrement* pour une utilisation dans le monde réel
Nous allons également mettre à jour constamment Agent Bake-Off pour ajouter plus d'agents de frontière, d'autres sous-ensembles d'agents (agents de révision PR, agents de sécurité/de garde, etc.), pour voir si les gens souhaitent avoir la possibilité d'apporter leurs propres dépôts publics/privés, etc.
Nous travaillons dur pour créer les plus grands benchmarks et classements du monde réel pour les agents. L'Agent Bake-Off est un petit premier pas.
Veuillez l'essayer, voter et nous donner vos retours sur ce que vous trouveriez utile !!!
14,85K
Meilleurs
Classement
Favoris

