Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Conheça o Agent Bake-Off: testes cegos lado a lado para agentes de codificação como Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex e mais.
Temos estado a construir os maiores benchmarks do mundo real para agentes de codificação, e estamos entusiasmados em compartilhar uma prévia antecipada das nossas ferramentas comunitárias abertas.
Os dados de uso no mundo real sobre como os agentes são utilizados e adquiridos se tornarão mais importantes à medida que os agentes se tornem mainstream.
Queremos que qualquer pessoa possa fazer comparações justas, contribuir para tabelas de classificação públicas e fundamentar o ecossistema em preferências reais.
Experimente aqui:
É super simples agora:
- escolha um repositório público pré-definido
- insira uma tarefa
- nós a executamos em dois agentes anônimos com o mesmo contexto
Algumas tarefas podem levar algum tempo, então você pode opcionalmente enviar seu e-mail para receber uma notificação quando os resultados estiverem prontos.

Quando termina, você obtém:
- saídas lado a lado e diferenças
- metadados como notas de raciocínio, ferramentas utilizadas e tempo gasto
- uma votação cega para escolher o melhor resultado
Seus votos e execuções alimentam os quadros de líderes da comunidade pública.

Esta ainda é uma versão muito inicial, e estamos entusiasmados para ver o que é útil para as pessoas.
Algumas áreas que estamos a explorar são: como seria uma melhor UI/UX para rever o trabalho agencial paralelizado, quais metadados e tarefas são valiosos, etc.
*Especialmente* para uso no mundo real
Vamos também estar constantemente a atualizar o Agent Bake-Off para adicionar mais agentes de fronteira, outros subconjuntos de agentes (agentes de revisão de PR, agentes de segurança/guarda-linha, etc.), verificando se as pessoas querem a capacidade de trazer os seus próprios repositórios públicos/privados, etc.
Estamos a trabalhar arduamente para construir os maiores benchmarks e classificações do mundo real para agentes. O Agent Bake-Off é um pequeno primeiro passo.
Por favor, experimente, vote e dê-nos feedback sobre o que acharia útil!!!
14,85K
Top
Classificação
Favoritos

