Møt Agent Bake-Off: blinde side om side-tester for kodeagenter som Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex og mer. Vi har bygget de største virkelige benchmarkene for kodeagenter, og vi er glade for å dele en tidlig forhåndsvisning av våre åpne fellesskapsverktøy.
Bruksdata fra den virkelige verden om hvordan agenter brukes og anskaffes vil bli viktigere etter hvert som agenter blir mainstream. Vi vil at alle skal kunne kjøre rettferdige sammenligninger, bidra til offentlige ledertavler og forankre økosystemet i reelle preferanser. Prøv det her:
Det er superenkelt akkurat nå: - Velg et forhåndsinnstilt offentlig repo - angi en oppgave - Vi kjører den på to anonyme agenter med samme kontekst Noen oppgaver kan ta litt tid, så du kan eventuelt sende inn e-posten din for å få en ping når resultatene er klare.
Når den er ferdig får du: - side om side utganger og diffs - metadata som resonneringsnotater, verktøy som brukes og tid brukt - en blindstemme for å velge det beste resultatet Dine stemmer og løp gir næring til ledertavlene for det offentlige fellesskapet.
Dette er fortsatt en veldig tidlig versjon, og vi er spente på å se hva som er nyttig for folk. Noen områder vi utforsker er: hva bedre UI/UX for gjennomgang av parallellisert agentarbeid ser ut, hvilke metadata og oppgaver er verdifulle osv. *Spesielt* for bruk i den virkelige verden
Vi kommer også til å kontinuerlig oppdatere Agent Bake-Off for å legge til flere grenseagenter, andre undergrupper av agenter (PR-vurderingsagenter, sikkerhets-/rekkverksagenter osv.), for å se om folk vil ha muligheten til å ta med sine egne offentlige/private repoer osv.
Vi jobber hardt for å bygge de største referansene og ledertavlene for agenter i den virkelige verden. Agent Bake-Off er et lite første skritt. Prøv det, stem og gi oss tilbakemelding på hva du vil finne nyttig!!
14,82K