Conozca Agent Bake-Off: pruebas a ciegas lado a lado para agentes de codificación como Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex, y más. Hemos estado construyendo los puntos de referencia más grandes del mundo real para los agentes de codificación, y nos complace compartir una vista previa de nuestras herramientas de comunidad abierta.
Los datos de uso en el mundo real sobre cómo se utilizan y adquieren los agentes serán más importantes a medida que los agentes se generalicen. Queremos que cualquiera pueda realizar comparaciones justas, contribuir a las tablas de clasificación públicas y basar el ecosistema en preferencias reales. Pruébalo aquí:
Es súper simple en este momento: - Elija un repositorio público preestablecido - Ingresa una tarea - Lo ejecutamos en dos agentes anónimos con el mismo contexto Algunas tareas pueden llevar algún tiempo, por lo que opcionalmente puede enviar su correo electrónico para recibir un ping cuando los resultados estén listos.
Cuando termine, obtendrás: - salidas y diferenciales uno al lado del otro - metadatos como notas de razonamiento, herramientas utilizadas y tiempo dedicado - un voto a ciegas para elegir el mejor resultado Tus votos y carreras alimentan las tablas de clasificación públicas de la comunidad.
Esta es todavía una versión muy temprana, y estamos emocionados de ver lo que es útil para las personas. Algunas áreas que estamos explorando son: qué mejor UI/UX para revisar el trabajo agencial paralelizado, qué metadatos y tareas son valiosos, etc. *Especialmente* para uso en el mundo real
También vamos a actualizar constantemente Agent Bake-Off para agregar más agentes fronterizos, otros subconjuntos de agentes (agentes de revisión de relaciones públicas, agentes de seguridad / barandillas, etc.), ver si las personas quieren la capacidad de traer sus propios repositorios públicos / privados, etc.
Estamos trabajando arduamente para construir los puntos de referencia y tablas de clasificación más grandes del mundo real para los agentes. Agent Bake-Off es un pequeño primer paso. Pruébelo, vote y envíenos sus comentarios sobre lo que le resultaría útil!!
14.87K