Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Познакомьтесь с Agent Bake-Off: слепые тесты бок о бок для кодирующих агентов, таких как Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex и других.
Мы создаем крупнейшие реальные бенчмарки для кодирующих агентов и рады поделиться ранним предварительным просмотром наших инструментов для открытого сообщества.
Данные о реальном использовании агентов и их закупке станут более важными по мере того, как агенты выйдут на массовый рынок.
Мы хотим, чтобы каждый мог проводить честные сравнения, вносить вклад в публичные таблицы лидеров и основывать экосистему на реальных предпочтениях.
Попробуйте это здесь:
Сейчас это очень просто:
- выберите предустановленный публичный репозиторий
- введите задачу
- мы запускаем её на двух анонимных агентах с одинаковым контекстом
Некоторые задачи могут занять некоторое время, поэтому вы можете по желанию указать свой адрес электронной почты, чтобы получить уведомление, когда результаты будут готовы.

Когда это закончится, вы получите:
- результаты рядом и различия
- метаданные, такие как заметки о рассуждениях, использованные инструменты и затраченное время
- анонимное голосование для выбора лучшего результата
Ваши голоса и запуски пополняют публичные таблицы лидеров сообщества.

Это все еще очень ранняя версия, и нам интересно увидеть, что будет полезно людям.
Некоторые области, которые мы исследуем: как выглядит лучший UI/UX для обзора параллелизованной агентной работы, какие метаданные и задачи являются ценными и т.д.
*Особенно* для реального использования
Мы также будем постоянно обновлять Agent Bake-Off, добавляя больше пограничных агентов, другие подмножества агентов (агенты для проверки PR, агенты безопасности/ограничений и т. д.), проверяя, хотят ли люди иметь возможность добавлять свои собственные публичные/приватные репозитории и т. д.
Мы усердно работаем над созданием крупнейших реальных эталонов и рейтингов для агентов. Agent Bake-Off — это небольшой первый шаг.
Пожалуйста, попробуйте это, проголосуйте и дайте нам обратную связь о том, что вы считаете полезным!!!
14,85K
Топ
Рейтинг
Избранное

