今天,我們 @OpenAI 實現了一個許多人認為需要數年時間的里程碑:在 2025 年 IMO 上使用通用推理法學碩士獲得金牌級表現——在與人類相同的時間限制下,無需工具。儘管這聽起來很了不起,但它甚至比標題🧵更重要
Alexander Wei
Alexander Wei2025年7月19日
1/N 我很高興地與大家分享,我們最新的@OpenAI實驗推理 LLM 在 AI 領域實現了長期以來的重大挑戰:在世界上最負盛名的數學競賽——國際數學奧林匹克競賽 (IMO) 上獲得金牌級的表現。
通常對於這些 AI 結果,例如在圍棋/ Dota/ 撲克/ 外交中,研究人員花費多年時間製作一個精通某一狹窄領域的 AI,並且幾乎不做其他事情。但這不是一個特定於 IMO 的模型。這是一個推理 LLM,結合了新的實驗性通用技術。
那麼有什麼不同呢?我們開發了新技術,使得大型語言模型在難以驗證的任務上表現得更好。在我看來,問題是這方面的完美挑戰:證明的頁數很長,專家需要幾個小時來評分。與此相比,AIME的答案僅僅是一個從0到999的整數。
這個模型的思考時間也很*長*。o1思考了幾秒鐘。深度研究持續了幾分鐘。這個模型則思考了幾個小時。重要的是,它的思考效率也更高。而且在測試時間的計算和效率上還有很大的提升空間。
Noam Brown
Noam Brown2024年9月13日
@OpenAI @rao2z @OpenAI 的 o1 思考幾秒鐘,但我們的目標是讓未來的版本思考數小時、數天甚至數週。推理成本會更高,但你會為一種新的抗癌藥物支付多少成本?對於突破性電池?為了黎曼假說的證明?人工智慧不僅僅是聊天機器人
值得反思的是,人工智慧的進步速度有多快,尤其是在數學方面。在2024年,人工智慧實驗室在其模型發布中使用了小學數學(GSM8K)作為評估。從那時起,我們已經飽和了(高中)數學基準,然後是AIME,現在已經達到了IMO金牌。
這會去哪裡?儘管最近的人工智慧進展非常迅速,我完全預期這一趨勢會持續下去。重要的是,我認為我們接近於人工智慧在科學發現中做出實質貢獻。人工智慧稍微低於頂尖人類表現與稍微高於之間有很大的區別。
這是@alexwei_領導的一個小團隊努力。他採用了一個很少有人相信的研究想法,並用它來實現一個不太可能的結果。如果沒有 @OpenAI 和更廣泛的人工智慧社群多年的研究+工程,這也是不可能實現的。
當你在前沿實驗室工作時,你通常會比其他人早幾個月知道前沿能力的所在。但這個結果是全新的,使用了最近開發的技術。這對許多OpenAI的研究人員來說都是一個驚喜。今天,每個人都能看到前沿的所在。
1.07M