Loja DApp | Hub Web3 para eventos e jogos

Hoje, nós na @OpenAI alcançamos um marco que muitos consideraram anos de distância: desempenho em nível de medalha de ouro na IMO de 2025 com um LLM de raciocínio geral – sob os mesmos limites de tempo que os humanos, sem ferramentas. Por mais notável que isso pareça, é ainda mais significativo do que a manchete 🧵

Normalmente, para estes resultados de IA, como em Go/Dota/Poker/Diplomacia, os investigadores passam anos a desenvolver uma IA que domina um domínio específico e faz pouco mais. Mas este não é um modelo específico do IMO. É um LLM de raciocínio que incorpora novas técnicas experimentais de propósito geral.

Então, o que é diferente? Desenvolvemos novas técnicas que tornam os LLMs muito melhores em tarefas difíceis de verificar. Na minha opinião, os problemas eram o desafio perfeito para isso: as provas têm páginas de comprimento e levam horas para serem avaliadas por especialistas. Compare isso com o AIME, onde as respostas são simplesmente um inteiro de 0 a 999.

Além disso, este modelo pensa durante um *longo* tempo. o1 pensou por segundos. Pesquisa Profunda por minutos. Este pensa por horas. Importante, também é mais eficiente no seu raciocínio. E há muito espaço para aumentar ainda mais o cálculo e a eficiência durante o tempo de teste.

Vale a pena refletir sobre quão rápido tem sido o progresso da IA, especialmente em matemática. Em 2024, os laboratórios de IA estavam usando matemática de escola primária (GSM8K) como uma avaliação em seus lançamentos de modelos. Desde então, saturamos o benchmark de matemática (ensino secundário), depois o AIME, e agora estamos no ouro do IMO.

Para onde isto vai? Por mais rápido que tenha sido o progresso recente da IA, espero plenamente que a tendência continue. Importante, acho que estamos perto de a IA contribuir substancialmente para a descoberta científica. Há uma grande diferença entre a IA estar ligeiramente abaixo do desempenho humano de topo e estar ligeiramente acima.

Este foi um pequeno esforço de equipa liderado por @alexwei_. Ele pegou uma ideia de pesquisa em que poucos acreditavam e usou-a para alcançar um resultado que menos pensava ser possível. Isso também não seria possível sem anos de pesquisa + engenharia de muitos na @OpenAI e da comunidade de IA em geral.

Quando se trabalha num laboratório de fronteira, geralmente sabe-se onde estão as capacidades de fronteira meses antes de qualquer outra pessoa. Mas este resultado é completamente novo, utilizando técnicas recentemente desenvolvidas. Foi uma surpresa até para muitos investigadores da OpenAI. Hoje, todos podem ver onde está a fronteira.