認識 Agent Bake-Off:針對像 Claude Code、@cursor_ai、@AmpCode、@FactoryAI、Codex 等編碼代理的盲測。 我們一直在建立最大的現實世界編碼代理基準,並且我們很高興能分享我們開放社區工具的早期預覽。
隨著代理商進入主流,代理商的實際使用數據和採購方式將變得更加重要。 我們希望任何人都能進行公平的比較,貢獻於公共排行榜,並將生態系統建立在真實的偏好之上。 在這裡試試:
現在非常簡單: - 選擇一個預設的公共倉庫 - 輸入一個任務 - 我們在兩個匿名代理上以相同的上下文運行它 某些任務可能需要一些時間,因此您可以選擇提交您的電子郵件,以便在結果準備好時收到通知。
當它完成時,您將獲得: - 並排的輸出和差異 - 像推理筆記、使用的工具和花費的時間等元數據 - 一次盲投票來選擇更好的結果 您的投票和運行將填充公共社區排行榜。
這仍然是一個非常早期的版本,我們很高興看到什麼對人們有用。 我們正在探索的一些領域包括:什麼樣的 UI/UX 更適合審查平行化的代理工作,什麼元數據和任務是有價值的等等。 *特別是*針對現實世界的使用
我們也將不斷更新 Agent Bake-Off,以添加更多前沿代理、其他子集代理(PR 審查代理、安全/防護代理等),看看人們是否希望能夠帶入自己的公共/私有倉庫等。
我們正在努力建立最大的現實世界基準和代理排行榜。Agent Bake-Off 是一個小小的第一步。 請試試它,投票,並告訴我們您認為有用的反饋!!!
14.84K