Maak kennis met Agent Bake-Off: blinde zij-aan-zij tests voor coderingsagenten zoals Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex en meer. We hebben de grootste real-world benchmarks voor coderingsagenten gebouwd, en we zijn enthousiast om een vroege preview van onze open community tooling te delen.
Gegevens over het gebruik van agents in de echte wereld en hoe ze worden aangeschaft, zullen belangrijker worden naarmate agents mainstream worden. We willen dat iedereen eerlijke vergelijkingen kan maken, kan bijdragen aan openbare ranglijsten en het ecosysteem kan baseren op echte voorkeuren. Probeer het hier:
Het is nu super eenvoudig: - kies een vooraf ingestelde openbare repo - voer een taak in - wij draaien het op twee anonieme agents met dezelfde context Sommige taken kunnen enige tijd duren, dus je kunt optioneel je e-mailadres indienen om een melding te krijgen wanneer de resultaten klaar zijn.
Wanneer het klaar is, krijg je: - naast elkaar staande uitvoer en verschillen - metadata zoals redeneringsnotities, gebruikte tools en tijd besteed - een blinde stemming om het betere resultaat te kiezen Jouw stemmen en runs voeden de openbare community ranglijsten.
Dit is nog een zeer vroege versie, en we zijn enthousiast om te zien wat nuttig is voor mensen. Enkele gebieden die we verkennen zijn: hoe een betere UI/UX voor het beoordelen van parallelle agentische werkzaamheden eruitziet, welke metadata en taken waardevol zijn, enz. *Bijzonder* voor gebruik in de echte wereld
We zullen ook voortdurend Agent Bake-Off bijwerken om meer frontier agents toe te voegen, andere subsets van agents (PR review agents, beveiligings-/guardrail agents, enz.), en kijken of mensen de mogelijkheid willen om hun eigen publieke/private repos mee te brengen, enz.
We werken hard om de grootste benchmarks en ranglijsten voor agents in de echte wereld op te bouwen. Agent Bake-Off is een kleine eerste stap. Probeer het alsjeblieft, stem en geef ons feedback over wat je nuttig zou vinden!!!
14,85K