Stiamo rilasciando BrowseComp, che sta per Browsing Competition. 🏎️ Pensalo come una competizione di programmazione o matematica: anche se queste gare potrebbero non riflettere perfettamente la SWE del mondo reale o la ricerca matematica, catturano una scintilla di intelligenza. Questo è IL punto di riferimento di cui dovremmo preoccuparci quando valutiamo l'intelligenza di agenti di navigazione simili a ricerche approfondite.
OpenAI
OpenAI11 apr 2025
Stiamo rendendo open source BrowseComp ("Competizione di Navigazione"), un nuovo e impegnativo benchmark progettato per testare quanto bene gli agenti AI possono navigare su Internet per trovare informazioni difficili da localizzare. È come una caccia al tesoro online... ma per agenti di navigazione.
464,92K