Aujourd’hui, chez @OpenAI, nous avons franchi une étape que beaucoup considéraient dans des années : une performance de niveau médaille d’or à l’OIM 2025 avec un raisonnement général LLM – dans les mêmes limites de temps que les humains, sans outils. Aussi remarquable que cela puisse paraître, c’est encore plus significatif que le titre 🧵
Alexander Wei
Alexander Wei19 juil. 2025
1/N Je suis ravi de partager que notre dernier raisonnement expérimental @OpenAI LLM a relevé un grand défi de longue date dans le domaine de l’IA : une performance de niveau médaille d’or lors de la compétition de mathématiques la plus prestigieuse au monde, l’Olympiade internationale de mathématiques (IMO).
Typiquement, pour ces résultats d'IA, comme dans Go/Dota/Poker/Diplomatie, les chercheurs passent des années à créer une IA qui maîtrise un domaine étroit et ne fait guère autre chose. Mais ce n'est pas un modèle spécifique à l'IMO. C'est un LLM de raisonnement qui intègre de nouvelles techniques expérimentales à usage général.
Alors, qu'est-ce qui est différent ? Nous avons développé de nouvelles techniques qui rendent les LLM beaucoup plus performants dans des tâches difficiles à vérifier. À mon avis, les problèmes étaient le défi parfait pour cela : les preuves font des pages de long et prennent des heures aux experts pour être notées. Comparez cela à l'AIME, où les réponses sont simplement un entier de 0 à 999.
De plus, ce modèle réfléchit pendant *longtemps*. o1 a réfléchi pendant des secondes. Deep Research pendant des minutes. Celui-ci pense pendant des heures. Il est également plus efficace dans sa réflexion. Et il y a beaucoup de marge pour améliorer encore le calcul et l'efficacité pendant le temps de test.
Noam Brown
Noam Brown13 sept. 2024
@OpenAI @rao2z @OpenAI’o1 pense pendant quelques secondes, mais nous visons à ce que les versions futures pensent pendant des heures, des jours, voire des semaines. Les coûts d’inférence seront plus élevés, mais quel coût paieriez-vous pour un nouveau médicament anticancéreux ? Pour des batteries révolutionnaires ? Pour une preuve de l’hypothèse de Riemann ? L’IA peut être plus que des chatbots
Il est intéressant de réfléchir à la rapidité des progrès de l'IA, en particulier en mathématiques. En 2024, les laboratoires d'IA utilisaient les mathématiques de l'école primaire (GSM8K) comme évaluation dans leurs publications de modèles. Depuis lors, nous avons saturé le benchmark MATH (lycée), puis l'AIME, et maintenant nous sommes au niveau or de l'IMO.
Où cela va-t-il ? Aussi rapide que soit le progrès récent de l'IA, je m'attends pleinement à ce que la tendance se poursuive. Il est important de noter que je pense que nous sommes proches de voir l'IA contribuer de manière substantielle à la découverte scientifique. Il y a une grande différence entre l'IA légèrement en dessous de la performance humaine maximale et légèrement au-dessus.
Il s’agissait d’un petit effort d’équipe dirigé par @alexwei_. Il a pris une idée de recherche à laquelle peu de gens croyaient et l’a utilisée pour obtenir un résultat que peu pensaient possible. Cela ne serait pas non plus possible sans des années de recherche + ingénierie de la part de nombreux @OpenAI et de la communauté de l’IA au sens large.
Lorsque vous travaillez dans un laboratoire de pointe, vous savez généralement où se trouvent les capacités de pointe des mois avant tout le monde. Mais ce résultat est tout nouveau, utilisant des techniques récemment développées. Cela a même surpris de nombreux chercheurs d'OpenAI. Aujourd'hui, tout le monde peut voir où se trouve la frontière.
1,07M