热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
认识代理人 Bake-Off:针对编码代理(如 Claude Code、@cursor_ai、@AmpCode、@FactoryAI、Codex 等)的盲测并排测试。
我们一直在构建最大的现实世界编码代理基准,并且我们很高兴分享我们开放社区工具的早期预览。
随着代理商的普及,关于代理商如何被使用和采购的真实世界数据将变得更加重要。
我们希望任何人都能进行公平的比较,参与公共排行榜,并将生态系统建立在真实的偏好之上。
在这里尝试:
现在超级简单:
- 选择一个预设的公共仓库
- 输入一个任务
- 我们在两个匿名代理上以相同的上下文运行它
有些任务可能需要一些时间,因此您可以选择提交您的电子邮件,以便在结果准备好时收到通知。

完成后,您将获得:
- 并排输出和差异
- 元数据,如推理笔记、使用的工具和花费的时间
- 一次盲投票以选择更好的结果
您的投票和运行将为公共社区排行榜提供数据。

这仍然是一个非常早期的版本,我们很高兴看到哪些对人们有用。
我们正在探索的一些领域包括:什么样的 UI/UX 更适合审查并行代理工作,什么元数据和任务是有价值的,等等。
*特别是*针对现实世界的使用
我们还将不断更新 Agent Bake-Off,以添加更多前沿代理、其他子集代理(PR 审查代理、安全/防护代理等),看看人们是否希望能够带入自己的公共/私有仓库等。
我们正在努力建立最大的现实世界基准和代理排行榜。Agent Bake-Off 是一个小小的第一步。
请尝试一下,投票,并告诉我们您认为哪些功能会对您有用!!!
14.84K
热门
排行
收藏

