Incontra Agent Bake-Off: test alla cieca affiancati per agenti di codifica come Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex e altri. Abbiamo costruito i più grandi benchmark del mondo reale per agenti di codifica e siamo entusiasti di condividere un'anteprima della nostra strumentazione per la comunità aperta.
I dati sull'uso reale di come gli agenti vengono utilizzati e procurati diventeranno sempre più importanti man mano che gli agenti diventeranno mainstream. Vogliamo che chiunque possa effettuare confronti equi, contribuire a classifiche pubbliche e radicare l'ecosistema nelle reali preferenze. Provalo qui:
È super semplice in questo momento: - scegli un repository pubblico preimpostato - inserisci un compito - lo eseguiamo su due agenti anonimi con lo stesso contesto Alcuni compiti possono richiedere del tempo, quindi puoi facoltativamente inviare la tua email per ricevere una notifica quando i risultati sono pronti.
Quando finisce ottieni: - output affiancati e differenze - metadati come note di ragionamento, strumenti utilizzati e tempo impiegato - un voto cieco per scegliere il risultato migliore I tuoi voti e le tue esecuzioni alimentano le classifiche pubbliche della comunità.
Questa è ancora una versione molto preliminare, e siamo entusiasti di vedere cosa risulta utile per le persone. Alcuni ambiti che stiamo esplorando sono: come potrebbe apparire una migliore UI/UX per la revisione del lavoro agentico parallelizzato, quali metadati e compiti sono preziosi, ecc. *In particolare* per l'uso nel mondo reale
Aggiorneremo costantemente Agent Bake-Off per aggiungere più agenti di frontiera, altri sottoinsiemi di agenti (agenti di revisione PR, agenti di sicurezza/guardrail, ecc.), per vedere se le persone vogliono la possibilità di portare i propri repository pubblici/privati, ecc.
Stiamo lavorando duramente per costruire i più grandi benchmark e classifiche del mondo reale per gli agenti. Agent Bake-Off è un piccolo primo passo. Per favore, provalo, vota e facci sapere cosa troveresti utile!!!
14,86K