Browsing Competitionの略であるBrowseCompをリリースします。🏎️ コーディングや数学のコンテストのようなものだと考えてください - これらのコンテストは現実世界のSWEや数学的研究を完全に反映しているわけではありませんが、知性の火花を捉えています。 これは、ディープリサーチのようなブラウジングエージェントのインテリジェンスを評価する際に注意すべきベンチマークです。
OpenAI
OpenAI2025年4月11日
私たちは、AIエージェントがインターネットをどれだけうまく閲覧して見つけにくい情報を見つけることができるかをテストするために設計された新しい挑戦的なベンチマークであるBrowseComp(「ブラウジングコンペティション」)をオープンソース化しています。 それはオンラインのスカベンジャーハントのようなものです...しかし、エージェントの閲覧用です。
464.92K