认识代理人 Bake-Off:针对编码代理(如 Claude Code、@cursor_ai、@AmpCode、@FactoryAI、Codex 等)的盲测并排测试。 我们一直在构建最大的现实世界编码代理基准,并且我们很高兴分享我们开放社区工具的早期预览。
随着代理商的普及,关于代理商如何被使用和采购的真实世界数据将变得更加重要。 我们希望任何人都能进行公平的比较,参与公共排行榜,并将生态系统建立在真实的偏好之上。 在这里尝试:
现在超级简单: - 选择一个预设的公共仓库 - 输入一个任务 - 我们在两个匿名代理上以相同的上下文运行它 有些任务可能需要一些时间,因此您可以选择提交您的电子邮件,以便在结果准备好时收到通知。
完成后,您将获得: - 并排输出和差异 - 元数据,如推理笔记、使用的工具和花费的时间 - 一次盲投票以选择更好的结果 您的投票和运行将为公共社区排行榜提供数据。
这仍然是一个非常早期的版本,我们很高兴看到哪些对人们有用。 我们正在探索的一些领域包括:什么样的 UI/UX 更适合审查并行代理工作,什么元数据和任务是有价值的,等等。 *特别是*针对现实世界的使用
我们还将不断更新 Agent Bake-Off,以添加更多前沿代理、其他子集代理(PR 审查代理、安全/防护代理等),看看人们是否希望能够带入自己的公共/私有仓库等。
我们正在努力建立最大的现实世界基准和代理排行榜。Agent Bake-Off 是一个小小的第一步。 请尝试一下,投票,并告诉我们您认为哪些功能会对您有用!!!
14.84K