今天,我们 @OpenAI 实现了一个许多人认为需要数年时间的里程碑:在 2025 年 IMO 上使用通用推理法学硕士获得金牌级表现——在与人类相同的时间限制下,无需工具。尽管这听起来很了不起,但它甚至比标题🧵更重要
Alexander Wei
Alexander Wei2025年7月19日
1/N 我很高兴地与大家分享,我们最新的@OpenAI实验推理法学硕士在人工智能领域实现了一项长期存在的重大挑战:在世界上最负盛名的数学竞赛——国际数学奥林匹克竞赛(IMO)上获得金牌级的成绩。
通常,对于这些人工智能结果,就像在围棋/刀塔/扑克/外交中,研究人员花费数年时间开发一种能够精通某一狭窄领域的人工智能,而其他方面则做得很少。但这并不是一个特定于IMO的模型。这是一个推理的LLM,结合了新的实验性通用技术。
那么有什么不同呢?我们开发了新技术,使得大型语言模型在难以验证的任务上表现得更好。在我看来,IMO问题是一个完美的挑战:证明文档长达数页,专家需要数小时来评分。与此相比,AIME的答案只是一个从0到999的整数。
此外,这个模型思考的时间很*长*。o1思考了几秒钟。深度研究花了几分钟。而这个模型思考了几个小时。重要的是,它的思考效率也更高。而且在测试时间的计算和效率上还有很大的提升空间。
Noam Brown
Noam Brown2024年9月13日
@OpenAI @rao2z @OpenAI 的 o1 思考几秒钟,但我们的目标是让未来的版本思考数小时、数天甚至数周。推理成本会更高,但你会为一种新的抗癌药物支付多少成本?对于突破性电池?为了证明黎曼假说?人工智能不仅仅是聊天机器人
值得反思的是,人工智能的进步有多快,尤其是在数学方面。到2024年,人工智能实验室在其模型发布中使用了小学数学(GSM8K)作为评估标准。从那时起,我们已经饱和了(高中)数学基准,然后是AIME,现在达到了国际数学奥林匹克金牌。
这将走向何方?尽管最近的人工智能进展非常迅速,我完全预期这一趋势将继续。重要的是,我认为我们离人工智能在科学发现中做出实质性贡献不远了。人工智能稍微低于顶尖人类表现与稍微高于顶尖人类表现之间有很大的区别。
这是@alexwei_领导的一个小团队努力。他采用了一个很少有人相信的研究想法,并用它来实现一个不太可能产生的结果。如果没有 @OpenAI 和更广泛的人工智能社区的许多人多年的研究+工程,这也是不可能实现的。
当你在前沿实验室工作时,你通常会比其他人早几个月知道前沿能力在哪里。但这个结果是全新的,使用了最近开发的技术。甚至许多OpenAI的研究人员对此感到惊讶。今天,每个人都可以看到前沿在哪里。
1.07M