Conheça o Agent Bake-Off: testes cegos lado a lado para agentes de codificação como Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex e mais. Temos estado a construir os maiores benchmarks do mundo real para agentes de codificação, e estamos entusiasmados em compartilhar uma prévia antecipada das nossas ferramentas comunitárias abertas.
Os dados de uso no mundo real sobre como os agentes são utilizados e adquiridos se tornarão mais importantes à medida que os agentes se tornem mainstream. Queremos que qualquer pessoa possa fazer comparações justas, contribuir para tabelas de classificação públicas e fundamentar o ecossistema em preferências reais. Experimente aqui:
É super simples agora: - escolha um repositório público pré-definido - insira uma tarefa - nós a executamos em dois agentes anônimos com o mesmo contexto Algumas tarefas podem levar algum tempo, então você pode opcionalmente enviar seu e-mail para receber uma notificação quando os resultados estiverem prontos.
Quando termina, você obtém: - saídas lado a lado e diferenças - metadados como notas de raciocínio, ferramentas utilizadas e tempo gasto - uma votação cega para escolher o melhor resultado Seus votos e execuções alimentam os quadros de líderes da comunidade pública.
Esta ainda é uma versão muito inicial, e estamos entusiasmados para ver o que é útil para as pessoas. Algumas áreas que estamos a explorar são: como seria uma melhor UI/UX para rever o trabalho agencial paralelizado, quais metadados e tarefas são valiosos, etc. *Especialmente* para uso no mundo real
Vamos também estar constantemente a atualizar o Agent Bake-Off para adicionar mais agentes de fronteira, outros subconjuntos de agentes (agentes de revisão de PR, agentes de segurança/guarda-linha, etc.), verificando se as pessoas querem a capacidade de trazer os seus próprios repositórios públicos/privados, etc.
Estamos a trabalhar arduamente para construir os maiores benchmarks e classificações do mundo real para agentes. O Agent Bake-Off é um pequeno primeiro passo. Por favor, experimente, vote e dê-nos feedback sobre o que acharia útil!!!
14,85K