一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

认识代理人 Bake-Off：针对编码代理（如 Claude Code、@cursor_ai、@AmpCode、@FactoryAI、Codex 等）的盲测并排测试。我们一直在构建最大的现实世界编码代理基准，并且我们很高兴分享我们开放社区工具的早期预览。

随着代理商的普及，关于代理商如何被使用和采购的真实世界数据将变得更加重要。我们希望任何人都能进行公平的比较，参与公共排行榜，并将生态系统建立在真实的偏好之上。在这里尝试：

现在超级简单： - 选择一个预设的公共仓库 - 输入一个任务 - 我们在两个匿名代理上以相同的上下文运行它有些任务可能需要一些时间，因此您可以选择提交您的电子邮件，以便在结果准备好时收到通知。

完成后，您将获得： - 并排输出和差异 - 元数据，如推理笔记、使用的工具和花费的时间 - 一次盲投票以选择更好的结果您的投票和运行将为公共社区排行榜提供数据。

这仍然是一个非常早期的版本，我们很高兴看到哪些对人们有用。我们正在探索的一些领域包括：什么样的 UI/UX 更适合审查并行代理工作，什么元数据和任务是有价值的，等等。 *特别是*针对现实世界的使用

我们还将不断更新 Agent Bake-Off，以添加更多前沿代理、其他子集代理（PR 审查代理、安全/防护代理等），看看人们是否希望能够带入自己的公共/私有仓库等。

我们正在努力建立最大的现实世界基准和代理排行榜。Agent Bake-Off 是一个小小的第一步。请尝试一下，投票，并告诉我们您认为哪些功能会对您有用！！！

14.84K