Познакомьтесь с Agent Bake-Off: слепые тесты бок о бок для кодирующих агентов, таких как Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex и других. Мы создаем крупнейшие реальные бенчмарки для кодирующих агентов и рады поделиться ранним предварительным просмотром наших инструментов для открытого сообщества.
Данные о реальном использовании агентов и их закупке станут более важными по мере того, как агенты выйдут на массовый рынок. Мы хотим, чтобы каждый мог проводить честные сравнения, вносить вклад в публичные таблицы лидеров и основывать экосистему на реальных предпочтениях. Попробуйте это здесь:
Сейчас это очень просто: - выберите предустановленный публичный репозиторий - введите задачу - мы запускаем её на двух анонимных агентах с одинаковым контекстом Некоторые задачи могут занять некоторое время, поэтому вы можете по желанию указать свой адрес электронной почты, чтобы получить уведомление, когда результаты будут готовы.
Когда это закончится, вы получите: - результаты рядом и различия - метаданные, такие как заметки о рассуждениях, использованные инструменты и затраченное время - анонимное голосование для выбора лучшего результата Ваши голоса и запуски пополняют публичные таблицы лидеров сообщества.
Это все еще очень ранняя версия, и нам интересно увидеть, что будет полезно людям. Некоторые области, которые мы исследуем: как выглядит лучший UI/UX для обзора параллелизованной агентной работы, какие метаданные и задачи являются ценными и т.д. *Особенно* для реального использования
Мы также будем постоянно обновлять Agent Bake-Off, добавляя больше пограничных агентов, другие подмножества агентов (агенты для проверки PR, агенты безопасности/ограничений и т. д.), проверяя, хотят ли люди иметь возможность добавлять свои собственные публичные/приватные репозитории и т. д.
Мы усердно работаем над созданием крупнейших реальных эталонов и рейтингов для агентов. Agent Bake-Off — это небольшой первый шаг. Пожалуйста, попробуйте это, проголосуйте и дайте нам обратную связь о том, что вы считаете полезным!!!
14,85K