DApp Store | Web3 Hub voor evenementen en spelletjes

Vandaag hebben we bij @OpenAI een mijlpaal bereikt die velen als jaren weg beschouwden: prestaties op gouden medailleniveau op de IMO van 2025 met een algemeen redenerende LLM - onder dezelfde tijdslimieten als mensen, zonder gereedschap. Hoe opmerkelijk dat ook klinkt, het is nog belangrijker dan de kop 🧵

Typisch voor deze AI-resultaten, zoals in Go/Dota/Poker/Diplomatie, besteden onderzoekers jaren aan het maken van een AI die één smal domein beheerst en verder weinig doet. Maar dit is geen IMO-specifiek model. Het is een redeneermodel dat nieuwe experimentele algemene technieken incorporeert.

Wat is er anders? We hebben nieuwe technieken ontwikkeld die LLM's veel beter maken in moeilijk te verifiëren taken. IMO-problemen waren de perfecte uitdaging hiervoor: bewijzen zijn pagina's lang en kosten experts uren om te beoordelen. Vergelijk dat met AIME, waar antwoorden simpelweg een geheel getal van 0 tot 999 zijn.

Ook dit model denkt *lang* na. o1 dacht enkele seconden. Deep Research dacht enkele minuten. Dit model denkt urenlang. Belangrijk is dat het ook efficiënter is in zijn denken. En er is veel ruimte om de rekentijd en efficiëntie verder te verbeteren.

Het is de moeite waard om na te denken over hoe snel de vooruitgang van AI is geweest, vooral in wiskunde. In 2024 gebruikten AI-laboratoria basisschoolwiskunde (GSM8K) als evaluatie bij hun modelreleases. Sindsdien hebben we de (middelbare school) MATH-norm verzadigd, daarna AIME, en nu zijn we op IMO-goud.

Waar gaat dit naartoe? Hoe snel de recente vooruitgang in AI ook is geweest, ik verwacht volledig dat de trend zich zal voortzetten. Belangrijk is dat ik denk dat we dicht bij het punt zijn waarop AI aanzienlijk zal bijdragen aan wetenschappelijke ontdekkingen. Er is een groot verschil tussen AI die net onder de beste menselijke prestaties zit en AI die net erboven zit.

Dit was een kleine teamprestatie onder leiding van @alexwei_. Hij nam een onderzoeksidee waar weinigen in geloofden en gebruikte het om een resultaat te bereiken dat minder voor mogelijk werd gehouden. Dit zou ook niet mogelijk zijn zonder jaren van onderzoek + engineering van velen bij @OpenAI en de bredere AI-gemeenschap.

Wanneer je werkt in een frontier lab, weet je meestal maanden van tevoren waar de frontier capaciteiten zijn voordat iemand anders dat weet. Maar dit resultaat is gloednieuw, met gebruik van recent ontwikkelde technieken. Het was zelfs een verrassing voor veel onderzoekers bij OpenAI. Vandaag krijgt iedereen te zien waar de frontier ligt.