DApp Store | Web3 Hub für Ereignisse und Spiele

Heute haben wir bei @OpenAI einen Meilenstein erreicht, den viele noch Jahre entfernt hielten: eine Leistung auf Goldmedaillenniveau bei der IMO 2025 mit einer allgemeinen Argumentation LLM – unter den gleichen Zeitlimits wie Menschen, ohne Werkzeuge. So bemerkenswert das auch klingt, es ist noch bedeutender als die Überschrift 🧵

Typischerweise verbringen Forscher Jahre damit, eine KI zu entwickeln, die in einem engen Bereich wie Go/Dota/Poker/Diplomatie Meisterschaft erlangt und wenig anderes tut. Aber dies ist kein spezifisches IMO-Modell. Es handelt sich um ein reasoning LLM, das neue experimentelle, allgemeine Techniken integriert.

Was ist also anders? Wir haben neue Techniken entwickelt, die LLMs viel besser bei schwer zu überprüfenden Aufgaben machen. IMO-Probleme waren die perfekte Herausforderung dafür: Beweise sind seitenlang und benötigen Stunden von Experten zur Bewertung. Vergleiche das mit AIME, wo die Antworten einfach eine ganze Zahl von 0 bis 999 sind.

Dieses Modell denkt auch *lange* nach. o1 dachte für Sekunden. Deep Research für Minuten. Dieses hier denkt für Stunden. Wichtig ist, dass es auch effizienter mit seinem Denken umgeht. Und es gibt viel Spielraum, um die Rechenleistung und Effizienz während der Testzeit weiter zu steigern.

Es ist wert, darüber nachzudenken, wie schnell der Fortschritt der KI war, insbesondere in der Mathematik. Im Jahr 2024 verwendeten KI-Labore Grundschulmathematik (GSM8K) als Bewertung in ihren Modellveröffentlichungen. Seitdem haben wir den (Oberschul-) MATH-Benchmark saturiert, dann AIME, und jetzt sind wir beim IMO-Gold.

Wohin führt das? So schnell wie der jüngste Fortschritt in der KI war, erwarte ich, dass der Trend anhält. Wichtig ist, dass ich denke, dass wir kurz davor stehen, dass KI erheblich zur wissenschaftlichen Entdeckung beiträgt. Es gibt einen großen Unterschied zwischen KI, die leicht unter der besten menschlichen Leistung liegt, und KI, die leicht darüber liegt.

Dies war eine kleine Teamleistung unter der Leitung von @alexwei_. Er nahm eine Forschungsidee, an die nur wenige glaubten, und nutzte sie, um ein Ergebnis zu erzielen, das weniger für möglich gehalten wurden. Dies wäre auch nicht möglich ohne jahrelange Forschung + Entwicklung von vielen an @OpenAI und der breiteren KI-Community.

Wenn man in einem Grenzlabor arbeitet, weiß man normalerweise Monate im Voraus, wo die Grenzfähigkeiten liegen. Aber dieses Ergebnis ist brandneu und nutzt kürzlich entwickelte Techniken. Es war sogar für viele Forscher bei OpenAI eine Überraschung. Heute kann jeder sehen, wo die Grenze liegt.