Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Faceți cunoștință cu Agent Bake-Off: teste oarbe unul lângă altul pentru agenți de codare precum Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex și multe altele.
Am construit cele mai mari benchmark-uri din lumea reală pentru agenții de codare și suntem încântați să împărtășim o previzualizare timpurie a instrumentelor noastre de comunitate deschisă.
Datele de utilizare din lumea reală despre modul în care agenții sunt folosiți și achiziționați vor deveni mai importante pe măsură ce agenții devin mainstream.
Vrem ca oricine să poată face comparații corecte, să contribuie la clasamentele publice și să fundamenteze ecosistemul în preferințe reale.
Încercați-l aici:
Este foarte simplu acum:
- alegeți un depozit public prestabilit
- introduceți o sarcină
- îl rulăm pe doi agenți anonimi cu același context
Unele sarcini pot dura ceva timp, așa că puteți trimite opțional e-mailul pentru a primi un ping atunci când rezultatele sunt gata.

Când se termină, primești:
- ieșiri și diferențe alăturate
- Metadate, cum ar fi notele de raționament, instrumentele utilizate și timpul petrecut
- un vot orb pentru a alege rezultatul mai bun
Voturile și cursele tale alimentează clasamentele comunității publice.

Aceasta este încă o versiune foarte timpurie și suntem încântați să vedem ce este util oamenilor.
Unele domenii pe care le explorăm sunt: cum arată UI/UX mai bun pentru revizuirea muncii agentice paralelizate, ce metadate și sarcini sunt valoroase etc.
*În special* pentru utilizare în lumea reală
De asemenea, vom actualiza constant Agent Bake-Off pentru a adăuga mai mulți agenți de frontieră, alte subseturi de agenți (agenți de revizuire a PR-urilor, agenți de securitate/bariere etc.), văzând dacă oamenii doresc posibilitatea de a-și aduce propriile depozite publice/private etc.
Lucrăm din greu pentru a construi cele mai mari benchmark-uri și clasamente din lumea reală pentru agenți. Agent Bake-Off este un mic prim pas.
Vă rugăm să încercați, să votați și să ne dați feedback despre ceea ce ați găsi util!!
14,85K
Limită superioară
Clasament
Favorite

