Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Stiamo rilasciando BrowseComp, che sta per Browsing Competition. 🏎️
Pensalo come una competizione di programmazione o matematica: anche se queste gare potrebbero non riflettere perfettamente la SWE del mondo reale o la ricerca matematica, catturano una scintilla di intelligenza.
Questo è IL punto di riferimento di cui dovremmo preoccuparci quando valutiamo l'intelligenza di agenti di navigazione simili a ricerche approfondite.

11 apr 2025
Stiamo rendendo open source BrowseComp ("Competizione di Navigazione"), un nuovo e impegnativo benchmark progettato per testare quanto bene gli agenti AI possono navigare su Internet per trovare informazioni difficili da localizzare.
È come una caccia al tesoro online... ma per agenti di navigazione.
464,92K
Principali
Ranking
Preferiti