Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoje, nós na @OpenAI alcançamos um marco que muitos consideraram anos de distância: desempenho em nível de medalha de ouro na IMO de 2025 com um LLM de raciocínio geral – sob os mesmos limites de tempo que os humanos, sem ferramentas. Por mais notável que isso pareça, é ainda mais significativo do que a manchete 🧵

19/07/2025
1/N Estou animado para compartilhar que nosso mais recente LLM de raciocínio experimental @OpenAI alcançou um grande desafio de longa data em IA: desempenho em nível de medalha de ouro na competição de matemática mais prestigiada do mundo - a Olimpíada Internacional de Matemática (IMO).

Normalmente, para estes resultados de IA, como em Go/Dota/Poker/Diplomacia, os investigadores passam anos a desenvolver uma IA que domina um domínio específico e faz pouco mais. Mas este não é um modelo específico do IMO. É um LLM de raciocínio que incorpora novas técnicas experimentais de propósito geral.
Então, o que é diferente? Desenvolvemos novas técnicas que tornam os LLMs muito melhores em tarefas difíceis de verificar. Na minha opinião, os problemas eram o desafio perfeito para isso: as provas têm páginas de comprimento e levam horas para serem avaliadas por especialistas. Compare isso com o AIME, onde as respostas são simplesmente um inteiro de 0 a 999.
Além disso, este modelo pensa durante um *longo* tempo. o1 pensou por segundos. Pesquisa Profunda por minutos. Este pensa por horas. Importante, também é mais eficiente no seu raciocínio. E há muito espaço para aumentar ainda mais o cálculo e a eficiência durante o tempo de teste.

13/09/2024
O O1 de @OpenAI @rao2z @OpenAI pensa por segundos, mas pretendemos que as versões futuras pensem por horas, dias e até semanas. Os custos de inferência serão mais elevados, mas que custo pagaria por um novo medicamento contra o cancro? Para baterias inovadoras? Para uma prova da Hipótese de Riemann? A IA pode ser mais do que chatbots

Vale a pena refletir sobre quão rápido tem sido o progresso da IA, especialmente em matemática. Em 2024, os laboratórios de IA estavam usando matemática de escola primária (GSM8K) como uma avaliação em seus lançamentos de modelos. Desde então, saturamos o benchmark de matemática (ensino secundário), depois o AIME, e agora estamos no ouro do IMO.
Para onde isto vai? Por mais rápido que tenha sido o progresso recente da IA, espero plenamente que a tendência continue. Importante, acho que estamos perto de a IA contribuir substancialmente para a descoberta científica. Há uma grande diferença entre a IA estar ligeiramente abaixo do desempenho humano de topo e estar ligeiramente acima.
Este foi um pequeno esforço de equipa liderado por @alexwei_. Ele pegou uma ideia de pesquisa em que poucos acreditavam e usou-a para alcançar um resultado que menos pensava ser possível. Isso também não seria possível sem anos de pesquisa + engenharia de muitos na @OpenAI e da comunidade de IA em geral.
Quando se trabalha num laboratório de fronteira, geralmente sabe-se onde estão as capacidades de fronteira meses antes de qualquer outra pessoa. Mas este resultado é completamente novo, utilizando técnicas recentemente desenvolvidas. Foi uma surpresa até para muitos investigadores da OpenAI. Hoje, todos podem ver onde está a fronteira.
1,07M
Top
Classificação
Favoritos