Магазин DApp | Web3-центр мероприятий и игр

Сегодня мы в @OpenAI достигли рубежа, который многие считали далеким от этого: выступление на уровне золотой медали на IMO 2025 года с общим обоснованием LLM — в тех же временных рамках, что и люди, без инструментов. Как бы замечательно это ни звучало, это даже более важно, чем заголовок 🧵

Как правило, для таких результатов ИИ, как в Go/Dota/Покер/Дипломатия, исследователи тратят годы на создание ИИ, который овладевает одной узкой областью и делает мало чего еще. Но это не модель, специфичная для IMO. Это reasoning LLM, который включает новые экспериментальные универсальные техники.

Так в чем разница? Мы разработали новые методы, которые значительно улучшают работу LLM в сложных задачах, которые трудно проверить. На мой взгляд, проблемы были идеальным вызовом для этого: доказательства занимают страницы и требуют от экспертов часов на оценку. Сравните это с AIME, где ответы представляют собой просто целое число от 0 до 999.

Также эта модель думает *долго*. o1 думал секунды. Глубокое исследование занимало минуты. Эта думает часами. Важно, что она также более эффективна в своих размышлениях. И есть много возможностей для дальнейшего увеличения вычислительных мощностей и эффективности во время тестирования.

Стоит задуматься, насколько быстро продвигается ИИ, особенно в математике. В 2024 году ИИ-лаборатории использовали математику начальной школы (GSM8K) в качестве оценки в своих релизах моделей. С тех пор мы достигли насыщения (старшей школы) MATH бенчмарка, затем AIME, а теперь находимся на уровне IMO gold.

Куда это идет? Насколько быстро развивался ИИ в последнее время, я полностью ожидаю, что эта тенденция продолжится. Важно отметить, что я думаю, мы близки к тому, чтобы ИИ существенно способствовал научным открытиям. Существует большая разница между ИИ, который немного ниже топового человеческого уровня, и ИИ, который немного выше.

Это была небольшая командная работа во главе с @alexwei_. Он взял исследовательскую идею, в которую мало кто верил, и использовал ее для достижения результата, о котором мало кто думал. Это также было бы невозможно без многолетних исследований + разработок многих сотрудников @OpenAI и более широкого сообщества ИИ.

Когда вы работаете в передовой лаборатории, вы обычно знаете, где находятся передовые возможности, за несколько месяцев до того, как это станет известно другим. Но этот результат совершенно новый, он использует недавно разработанные методы. Это стало сюрпризом даже для многих исследователей в OpenAI. Сегодня все могут увидеть, где находится передовая.