我們正在發布 BrowseComp,它代表瀏覽競爭。🏎️ 可以把它想像成編碼或數學競賽——雖然這些競賽可能無法完全反映現實世界的 SWE 或數學研究,但它們確實捕捉到了智慧的火花。 這是我們在評估類似深入研究的瀏覽代理的智能時應該關心的基準。
OpenAI
OpenAI2025年4月11日
我們正在開源 BrowseComp(“瀏覽競賽”),這是一個新的、具有挑戰性的基準測試,旨在測試 AI 代理瀏覽互聯網以查找難以找到的資訊的能力。 這就像一場在線尋寶遊戲......但對於流覽代理。
464.94K