Conheça o Agent Bake-Off: testes lado a lado cegos para agentes de codificação como Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex e muito mais. Estamos criando os maiores benchmarks do mundo real para agentes de codificação e estamos entusiasmados em compartilhar uma prévia antecipada de nossas ferramentas de comunidade aberta.
Os dados de uso do mundo real sobre como os agentes são usados e adquiridos se tornarão mais importantes à medida que os agentes se tornarem populares. Queremos que qualquer pessoa seja capaz de fazer comparações justas, contribuir para tabelas de classificação públicas e fundamentar o ecossistema em preferências reais. Experimente aqui:
É super simples agora: - escolha um repositório público predefinido - Insira uma tarefa - nós o executamos em dois agentes anônimos com o mesmo contexto Algumas tarefas podem levar algum tempo, então você pode, opcionalmente, enviar seu e-mail para receber um ping quando os resultados estiverem prontos.
Quando terminar, você obterá: - saídas e diffs lado a lado - metadados como notas de raciocínio, ferramentas usadas e tempo gasto - um voto cego para escolher o melhor resultado Seus votos e corridas alimentam as tabelas de classificação da comunidade pública.
Esta ainda é uma versão muito inicial e estamos ansiosos para ver o que é útil para as pessoas. Algumas áreas que estamos explorando são: como é a melhor UI/UX para revisar o trabalho agencial paralelizado, quais metadados e tarefas são valiosos, etc. *Especialmente* para uso no mundo real
Também atualizaremos constantemente o Agent Bake-Off para adicionar mais agentes de fronteira, outros subconjuntos de agentes (agentes de revisão de relações públicas, agentes de segurança/proteção, etc.), vendo se as pessoas querem a capacidade de trazer seus próprios repositórios públicos/privados, etc.
Estamos trabalhando duro para construir os maiores benchmarks e tabelas de classificação do mundo real para os agentes. Agent Bake-Off é um pequeno primeiro passo. Por favor, experimente, vote e nos dê feedback sobre o que você acharia útil!!
14,85K