Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tänään me @OpenAI:ssä saavutimme virstanpylvään, jota monet pitivät vuosien päässä: kultamitalitason suoritus vuoden 2025 IMO:ssa yleisellä päättelyllä LLM – samoilla aikarajoilla kuin ihmiset, ilman työkaluja. Niin merkittävältä kuin se kuulostaakin, se on jopa merkittävämpi kuin otsikko 🧵

19.7.2025
1/N Olen innoissani voidessani kertoa, että uusin @OpenAI kokeellisen päättelyn LLM on saavuttanut pitkäaikaisen suuren haasteen tekoälyssä: kultamitalitason suorituksen maailman arvostetuimmassa matematiikkakilpailussa – kansainvälisissä matematiikan olympialaisissa (IMO).

Tyypillisesti näissä tekoälytuloksissa, kuten Go/Dota/Poker/Diplomacyssa, tutkijat käyttävät vuosia luodakseen tekoälyn, joka hallitsee yhden kapean alueen eikä tee juuri muuta. Mutta tämä ei ole IMO-spesifinen malli. Se on päättely LLM, joka sisältää uusia kokeellisia yleiskäyttöisiä tekniikoita.
Joten mikä on erilaista? Kehitimme uusia tekniikoita, jotka tekevät LLM:istä paljon parempia vaikeasti todennettavissa tehtävissä. IMO:n ongelmat olivat täydellinen haaste tähän: vedokset ovat sivuja pitkiä ja asiantuntijoiden arvioiminen vie tunteja. Vertaa sitä AIME:hen, jossa vastaukset ovat yksinkertaisesti kokonaislukuja 0:sta 999:ään.
Myös tämä malli ajattelee *pitkään*. O1 mietti sekunteja. Syvällinen tutkimus minuutteja. Tämä ajattelee tuntikausia. Tärkeää on, että se on myös tehokkaampi ajattelussaan. Ja testiaikaista laskentaa ja tehokkuutta on paljon parantamisen varassa.

13.9.2024
@OpenAI @rao2z @OpenAI O1 ajattelee sekunteja, mutta pyrimme tuleviin versioihin ajattelemaan tunteja, päiviä, jopa viikkoja. Päättelykustannukset ovat korkeammat, mutta mitä maksaisit uudesta syöpälääkkeestä? Läpimurtoakuille? Todisteeksi Riemannin hypoteesista? Tekoäly voi olla muutakin kuin chatbotteja

On syytä pohtia, kuinka nopeasti tekoäly on kehittynyt, erityisesti matematiikassa. Vuonna 2024 tekoälylaboratoriot käyttivät peruskoulun matematiikkaa (GSM8K) mallijulkaisuissaan. Siitä lähtien olemme kyllästäneet (lukion) MATH-vertailuarvon, sitten AIME:n ja olemme nyt IMO:n kullassa.
Mihin tämä johtaa? Niin nopeaa kuin tekoälyn viimeaikainen kehitys on ollut, odotan täysin trendin jatkuvan. Tärkeää on, että uskon, että olemme lähellä tekoälyä, joka edistää merkittävästi tieteellisiä löytöjä. Tekoälyn välillä on suuri ero hieman alle ihmisen huippusuorituskyvyn ja hieman sen yläpuolella.
Tämä oli pieni tiimityö, jota johti @alexwei_. Hän otti tutkimusidean, johon harvat uskoivat, ja käytti sitä saavuttaakseen tuloksen, jota harvempi piti mahdollisena. Tämä ei myöskään olisi mahdollista ilman vuosien tutkimusta + suunnittelua monilta @OpenAI ja laajemmalta tekoälyyhteisöltä.
Kun työskentelet rajalaboratoriossa, tiedät yleensä kuukausia ennen muita, missä rajaominaisuudet ovat. Mutta tämä tulos on aivan uusi, ja siinä käytetään äskettäin kehitettyjä tekniikoita. Se oli yllätys jopa monille OpenAI:n tutkijoille. Nykyään kaikki näkevät, missä raja kulkee.
1,07M
Johtavat
Rankkaus
Suosikit