一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

今天，我们 @OpenAI 实现了一个许多人认为需要数年时间的里程碑：在 2025 年 IMO 上使用通用推理法学硕士获得金牌级表现——在与人类相同的时间限制下，无需工具。尽管这听起来很了不起，但它甚至比标题🧵更重要

通常，对于这些人工智能结果，就像在围棋/刀塔/扑克/外交中，研究人员花费数年时间开发一种能够精通某一狭窄领域的人工智能，而其他方面则做得很少。但这并不是一个特定于IMO的模型。这是一个推理的LLM，结合了新的实验性通用技术。

那么有什么不同呢？我们开发了新技术，使得大型语言模型在难以验证的任务上表现得更好。在我看来，IMO问题是一个完美的挑战：证明文档长达数页，专家需要数小时来评分。与此相比，AIME的答案只是一个从0到999的整数。

此外，这个模型思考的时间很*长*。o1思考了几秒钟。深度研究花了几分钟。而这个模型思考了几个小时。重要的是，它的思考效率也更高。而且在测试时间的计算和效率上还有很大的提升空间。

值得反思的是，人工智能的进步有多快，尤其是在数学方面。到2024年，人工智能实验室在其模型发布中使用了小学数学（GSM8K）作为评估标准。从那时起，我们已经饱和了（高中）数学基准，然后是AIME，现在达到了国际数学奥林匹克金牌。

这将走向何方？尽管最近的人工智能进展非常迅速，我完全预期这一趋势将继续。重要的是，我认为我们离人工智能在科学发现中做出实质性贡献不远了。人工智能稍微低于顶尖人类表现与稍微高于顶尖人类表现之间有很大的区别。

这是@alexwei_领导的一个小团队努力。他采用了一个很少有人相信的研究想法，并用它来实现一个不太可能产生的结果。如果没有 @OpenAI 和更广泛的人工智能社区的许多人多年的研究+工程，这也是不可能实现的。

当你在前沿实验室工作时，你通常会比其他人早几个月知道前沿能力在哪里。但这个结果是全新的，使用了最近开发的技术。甚至许多OpenAI的研究人员对此感到惊讶。今天，每个人都可以看到前沿在哪里。