Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Conoce a Agent Bake-Off: pruebas ciegas lado a lado para agentes de codificación como Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex y más.
Hemos estado construyendo los benchmarks del mundo real más grandes para agentes de codificación, y estamos emocionados de compartir una vista previa temprana de nuestras herramientas comunitarias abiertas.
Los datos de uso en el mundo real sobre cómo se utilizan y adquieren los agentes se volverán más importantes a medida que los agentes se conviertan en algo común.
Queremos que cualquiera pueda realizar comparaciones justas, contribuir a las tablas de clasificación públicas y fundamentar el ecosistema en preferencias reales.
Pruébalo aquí:
Es súper simple en este momento:
- elige un repositorio público preestablecido
- ingresa una tarea
- la ejecutamos en dos agentes anónimos con el mismo contexto
Algunas tareas pueden tardar un poco, así que puedes enviar tu correo electrónico opcionalmente para recibir una notificación cuando los resultados estén listos.

Cuando termina, obtienes:
- salidas y diferencias lado a lado
- metadatos como notas de razonamiento, herramientas utilizadas y tiempo dedicado
- una votación a ciegas para elegir el mejor resultado
Tus votos y ejecuciones alimentan las tablas de clasificación de la comunidad pública.

Esta sigue siendo una versión muy temprana, y estamos emocionados de ver qué es útil para la gente.
Algunas áreas que estamos explorando son: cómo sería una mejor UI/UX para revisar el trabajo agentic paralelo, qué metadatos y tareas son valiosos, etc.
*Especialmente* para el uso en el mundo real.
También vamos a estar actualizando constantemente Agent Bake-Off para añadir más agentes de frontera, otros subconjuntos de agentes (agentes de revisión de PR, agentes de seguridad/guardrail, etc.), viendo si la gente quiere la posibilidad de traer sus propios repositorios públicos/privados, etc.
Estamos trabajando arduamente para construir los mayores puntos de referencia y clasificaciones del mundo real para agentes. Agent Bake-Off es un pequeño primer paso.
¡Por favor, pruébalo, vota y danos tu opinión sobre lo que te resultaría útil!!!
14,84K
Parte superior
Clasificación
Favoritos

