一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

認識 Agent Bake-Off：針對像 Claude Code、@cursor_ai、@AmpCode、@FactoryAI、Codex 等編碼代理的盲測。我們一直在建立最大的現實世界編碼代理基準，並且我們很高興能分享我們開放社區工具的早期預覽。

隨著代理商進入主流，代理商的實際使用數據和採購方式將變得更加重要。我們希望任何人都能進行公平的比較，貢獻於公共排行榜，並將生態系統建立在真實的偏好之上。在這裡試試：

現在非常簡單： - 選擇一個預設的公共倉庫 - 輸入一個任務 - 我們在兩個匿名代理上以相同的上下文運行它某些任務可能需要一些時間，因此您可以選擇提交您的電子郵件，以便在結果準備好時收到通知。

當它完成時，您將獲得： - 並排的輸出和差異 - 像推理筆記、使用的工具和花費的時間等元數據 - 一次盲投票來選擇更好的結果您的投票和運行將填充公共社區排行榜。

這仍然是一個非常早期的版本，我們很高興看到什麼對人們有用。我們正在探索的一些領域包括：什麼樣的 UI/UX 更適合審查平行化的代理工作，什麼元數據和任務是有價值的等等。 *特別是*針對現實世界的使用

我們也將不斷更新 Agent Bake-Off，以添加更多前沿代理、其他子集代理（PR 審查代理、安全/防護代理等），看看人們是否希望能夠帶入自己的公共/私有倉庫等。

我們正在努力建立最大的現實世界基準和代理排行榜。Agent Bake-Off 是一個小小的第一步。請試試它，投票，並告訴我們您認為有用的反饋！！！

14.84K