Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Heute haben wir bei @OpenAI einen Meilenstein erreicht, den viele noch Jahre entfernt hielten: eine Leistung auf Goldmedaillenniveau bei der IMO 2025 mit einer allgemeinen Argumentation LLM – unter den gleichen Zeitlimits wie Menschen, ohne Werkzeuge. So bemerkenswert das auch klingt, es ist noch bedeutender als die Überschrift 🧵

19. Juli 2025
1/N Ich freue mich, Ihnen mitteilen zu können, dass unser neuestes @OpenAI LLM für experimentelles Denken eine langjährige große Herausforderung in der KI erreicht hat: Leistungen auf Goldmedaillenniveau beim prestigeträchtigsten Mathematikwettbewerb der Welt – der Internationalen Mathematikolympiade (IMO).

Typischerweise verbringen Forscher Jahre damit, eine KI zu entwickeln, die in einem engen Bereich wie Go/Dota/Poker/Diplomatie Meisterschaft erlangt und wenig anderes tut. Aber dies ist kein spezifisches IMO-Modell. Es handelt sich um ein reasoning LLM, das neue experimentelle, allgemeine Techniken integriert.
Was ist also anders? Wir haben neue Techniken entwickelt, die LLMs viel besser bei schwer zu überprüfenden Aufgaben machen. IMO-Probleme waren die perfekte Herausforderung dafür: Beweise sind seitenlang und benötigen Stunden von Experten zur Bewertung. Vergleiche das mit AIME, wo die Antworten einfach eine ganze Zahl von 0 bis 999 sind.
Dieses Modell denkt auch *lange* nach. o1 dachte für Sekunden. Deep Research für Minuten. Dieses hier denkt für Stunden. Wichtig ist, dass es auch effizienter mit seinem Denken umgeht. Und es gibt viel Spielraum, um die Rechenleistung und Effizienz während der Testzeit weiter zu steigern.

13. Sept. 2024
@OpenAI @rao2z @OpenAI o1 denkt sekundenlang, aber wir streben an, dass zukünftige Versionen stunden-, tage- oder sogar wochenlang denken. Die Kosten für die Inferenz werden höher sein, aber welche Kosten würden Sie für ein neues Krebsmedikament zahlen? Für bahnbrechende Batterien? Für einen Beweis der Riemannschen Hypothese? KI kann mehr sein als Chatbots

Es ist wert, darüber nachzudenken, wie schnell der Fortschritt der KI war, insbesondere in der Mathematik. Im Jahr 2024 verwendeten KI-Labore Grundschulmathematik (GSM8K) als Bewertung in ihren Modellveröffentlichungen. Seitdem haben wir den (Oberschul-) MATH-Benchmark saturiert, dann AIME, und jetzt sind wir beim IMO-Gold.
Wohin führt das? So schnell wie der jüngste Fortschritt in der KI war, erwarte ich, dass der Trend anhält. Wichtig ist, dass ich denke, dass wir kurz davor stehen, dass KI erheblich zur wissenschaftlichen Entdeckung beiträgt. Es gibt einen großen Unterschied zwischen KI, die leicht unter der besten menschlichen Leistung liegt, und KI, die leicht darüber liegt.
Dies war eine kleine Teamleistung unter der Leitung von @alexwei_. Er nahm eine Forschungsidee, an die nur wenige glaubten, und nutzte sie, um ein Ergebnis zu erzielen, das weniger für möglich gehalten wurden. Dies wäre auch nicht möglich ohne jahrelange Forschung + Entwicklung von vielen an @OpenAI und der breiteren KI-Community.
Wenn man in einem Grenzlabor arbeitet, weiß man normalerweise Monate im Voraus, wo die Grenzfähigkeiten liegen. Aber dieses Ergebnis ist brandneu und nutzt kürzlich entwickelte Techniken. Es war sogar für viele Forscher bei OpenAI eine Überraschung. Heute kann jeder sehen, wo die Grenze liegt.
1,07M
Top
Ranking
Favoriten