Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Oggi, noi di @OpenAI raggiunto un traguardo che molti consideravano lontano anni: prestazioni a livello di medaglia d'oro all'IMO 2025 con un LLM di ragionamento generale, entro gli stessi limiti di tempo degli esseri umani, senza attrezzi. Per quanto possa sembrare straordinario, è ancora più significativo del titolo 🧵

19 lug 2025
1/N Sono entusiasta di condividere che il nostro ultimo @OpenAI ragionamento sperimentale LLM ha raggiunto una grande sfida di lunga data nell'intelligenza artificiale: prestazioni a livello di medaglia d'oro nella competizione matematica più prestigiosa del mondo: le Olimpiadi internazionali di matematica (IMO).

Tipicamente, per questi risultati dell'IA, come in Go/Dota/Poker/Diplomacy, i ricercatori trascorrono anni a creare un'IA che padroneggia un dominio ristretto e fa poco altro. Ma questo non è un modello specifico per l'IMO. È un LLM di ragionamento che incorpora nuove tecniche generali sperimentali.
Qual è la differenza? Abbiamo sviluppato nuove tecniche che rendono i LLM molto migliori in compiti difficili da verificare. A mio avviso, i problemi erano la sfida perfetta per questo: le prove sono lunghe pagine e richiedono ore agli esperti per essere valutate. Confronta questo con l'AIME, dove le risposte sono semplicemente un intero da 0 a 999.
Anche questo modello pensa per un *lungo* periodo. o1 ha pensato per secondi. Deep Research per minuti. Questo pensa per ore. È importante notare che è anche più efficiente nel suo modo di pensare. E c'è molto margine per spingere ulteriormente il calcolo e l'efficienza durante il test.

13 set 2024
@OpenAI @rao2z @OpenAI'O1 pensa per secondi, ma puntiamo alle versioni future per pensare per ore, giorni, persino settimane. I costi di inferenza saranno più alti, ma quale costo pagheresti per un nuovo farmaco antitumorale? Per batterie rivoluzionarie? Per una dimostrazione dell'ipotesi di Riemann? L'intelligenza artificiale può essere molto più di un chatbot

Vale la pena riflettere su quanto sia stata rapida l'evoluzione dell'IA, specialmente in matematica. Nel 2024, i laboratori di IA utilizzavano la matematica delle scuole elementari (GSM8K) come valutazione nelle loro versioni di modelli. Da allora, abbiamo saturato il benchmark MATH (scuole superiori), poi l'AIME, e ora siamo al livello oro dell'IMO.
Dove va a finire tutto questo? Per quanto rapida sia stata la recente evoluzione dell'IA, mi aspetto pienamente che la tendenza continui. È importante notare che siamo vicini a un contributo sostanziale dell'IA alla scoperta scientifica. C'è una grande differenza tra un'IA leggermente al di sotto delle migliori prestazioni umane e una leggermente al di sopra.
Questo è stato un piccolo lavoro di squadra guidato da @alexwei_. Ha preso un'idea di ricerca in cui pochi credevano e l'ha usata per ottenere un risultato che si pensava meno possibile. Anche questo non sarebbe possibile senza anni di ricerca+ingegneria da parte di molti in @OpenAI e della più ampia comunità dell'intelligenza artificiale.
Quando lavori in un laboratorio all'avanguardia, di solito sai dove si trovano le capacità di frontiera mesi prima di chiunque altro. Ma questo risultato è completamente nuovo, utilizzando tecniche recentemente sviluppate. È stata una sorpresa anche per molti ricercatori di OpenAI. Oggi, tutti possono vedere dove si trova la frontiera.
1,07M
Principali
Ranking
Preferiti