Agent Bake-Offの紹介:Claude Code、@cursor_ai、@AmpCode、@FactoryAI、Codexなどのコーディングエージェントのブラインドサイドバイサイドテスト。 私たちは、コーディングエージェントのための最大の現実世界のベンチマークを構築してきましたが、オープンコミュニティツールの早期プレビューを共有できることを嬉しく思います。
エージェントがどのように使用され、調達されるかに関する実際の使用データは、エージェントが主流になるにつれてより重要になります。 私たちは、誰もが公正な比較を行い、公開リーダーボードに貢献し、エコシステムを実際の好みに根付かせることができるようにしたいと考えています。 ここで試してみてください:
今のところとても簡単です。 - 事前設定されたパブリックリポジトリを選択します - タスクを入力する - 同じコンテキストを持つ2つの匿名エージェントで実行します 一部のタスクには時間がかかる場合があるため、オプションでメールを送信して、結果の準備ができたら ping を受け取ることができます。
完了すると、次のものが得られます。 - 出力と差分を並べて - 推論メモ、使用したツール、費やした時間などのメタデータ - より良い結果を選ぶための盲目的な投票 あなたの投票と実行は、公開コミュニティのリーダーボードにフィードされます。
これはまだ非常に初期のバージョンであり、人々にとって何が役立つかを見るのが楽しみです。 私たちが検討している分野には、並列化されたエージェント作業をレビューするための優れた UI/UX がどのようなものか、どのようなメタデータとタスクが価値があるかなどがあります。 *特に* 実世界での使用
また、Agent Bake-Offを常に更新して、フロンティアエージェント、エージェントの他のサブセット(PRレビューエージェント、セキュリティ/ガードレールエージェントなど)を追加し、人々が独自のパブリック/プライベートリポジトリを持ち込む機能などを確認します。
私たちは、エージェント向けの最大の現実世界のベンチマークとリーダーボードの構築に懸命に取り組んでいます。エージェント・ベイクオフは小さな第一歩です。 ぜひ試してみて、投票して、役に立つと思われるものについてフィードバックをお寄せください!!
14.86K