Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Conheça o Agent Bake-Off: testes lado a lado cegos para agentes de codificação como Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex e muito mais.
Estamos criando os maiores benchmarks do mundo real para agentes de codificação e estamos entusiasmados em compartilhar uma prévia antecipada de nossas ferramentas de comunidade aberta.
Os dados de uso do mundo real sobre como os agentes são usados e adquiridos se tornarão mais importantes à medida que os agentes se tornarem populares.
Queremos que qualquer pessoa seja capaz de fazer comparações justas, contribuir para tabelas de classificação públicas e fundamentar o ecossistema em preferências reais.
Experimente aqui:
É super simples agora:
- escolha um repositório público predefinido
- Insira uma tarefa
- nós o executamos em dois agentes anônimos com o mesmo contexto
Algumas tarefas podem levar algum tempo, então você pode, opcionalmente, enviar seu e-mail para receber um ping quando os resultados estiverem prontos.

Quando terminar, você obterá:
- saídas e diffs lado a lado
- metadados como notas de raciocínio, ferramentas usadas e tempo gasto
- um voto cego para escolher o melhor resultado
Seus votos e corridas alimentam as tabelas de classificação da comunidade pública.

Esta ainda é uma versão muito inicial e estamos ansiosos para ver o que é útil para as pessoas.
Algumas áreas que estamos explorando são: como é a melhor UI/UX para revisar o trabalho agencial paralelizado, quais metadados e tarefas são valiosos, etc.
*Especialmente* para uso no mundo real
Também atualizaremos constantemente o Agent Bake-Off para adicionar mais agentes de fronteira, outros subconjuntos de agentes (agentes de revisão de relações públicas, agentes de segurança/proteção, etc.), vendo se as pessoas querem a capacidade de trazer seus próprios repositórios públicos/privados, etc.
Estamos trabalhando duro para construir os maiores benchmarks e tabelas de classificação do mundo real para os agentes. Agent Bake-Off é um pequeno primeiro passo.
Por favor, experimente, vote e nos dê feedback sobre o que você acharia útil!!
14,85K
Melhores
Classificação
Favoritos

