我们正在发布 BrowseComp,它代表浏览竞争。🏎️ 可以把它想象成编码或数学竞赛——虽然这些竞赛可能无法完全反映现实世界的 SWE 或数学研究,但它们确实捕捉到了智慧的火花。 这是我们在评估类似深度研究的浏览代理的智能时应该关心的基准。
OpenAI
OpenAI2025年4月11日
我们正在开源 BrowseComp(“浏览竞争”),这是一个新的、具有挑战性的基准,旨在测试 AI 代理在互联网上查找难以定位的信息的能力。 这就像一个在线寻宝游戏……但针对浏览代理。
464.92K