Зустрічайте Agent Bake-Off: сліпі паралельні тести для агентів кодування, таких як Claude Code, @cursor_ai , @AmpCode , @FactoryAI , Codex та інших. Ми розробляємо найбільші реальні тести для агентів кодування, і ми раді поділитися раннім попереднім переглядом нашого відкритого інструментарію спільноти.
Дані про використання в реальному світі про те, як агенти використовуються та закуповуються, стануть більш важливими в міру того, як агенти стануть мейнстрімом. Ми хочемо, щоб будь-хто міг проводити чесні порівняння, робити свій внесок у публічні таблиці лідерів і ґрунтувати екосистему на реальних уподобаннях. Спробуйте тут:
Зараз все дуже просто: - Виберіть попередньо встановлений публічний репозиторій - ввести завдання - Ми запускаємо його на двох анонімних агентах з однаковим контекстом Деякі завдання можуть зайняти деякий час, тому за бажанням ви можете надіслати свою електронну пошту, щоб отримати пінг, коли результати будуть готові.
Коли він закінчиться, ви отримаєте: - Пліч-о-пліч виходи та диференціали - метадані, як-от нотатки міркувань, використані інструменти та витрачений час - сліпе голосування для вибору кращого результату Ваші голоси та пробіжки живлять таблиці лідерів громадської спільноти.
Це все ще дуже рання версія, і ми раді побачити, що корисно для людей. Деякі сфери, які ми досліджуємо: як краще виглядає UI/UX для огляду розпаралеленої агентної роботи, які метадані та завдання є цінними тощо. *Особливо* для використання в реальному світі
Ми також будемо постійно оновлювати Agent Bake-Off, щоб додавати більше прикордонних агентів, інших підмножин агентів (агенти PR-огляду, агенти безпеки/охорони тощо), дивлячись, чи хочуть люди можливість приносити свої власні публічні/приватні репозиторії тощо.
Ми наполегливо працюємо над створенням найбільших реальних світових бенчмарків і таблиць лідерів для агентів. Agent Bake-Off – це маленький перший крок. Будь ласка, спробуйте, проголосуйте та дайте нам відгук про те, що вам буде корисно!!
14,87K