A IA tem o seu doutoramento e agora está no mercado de trabalho. Apresentamos o Índice de Produtividade da IA (APEX), um benchmark que mede quão bem automatizámos as indústrias mais valiosas do mundo. A maioria dos benchmarks estuda capacidades abstratas. O APEX avalia o desempenho dos modelos em entregas reais nas áreas de direito, finanças, consultoria e medicina. Os modelos mais capazes de realizar trabalho hoje, de acordo com o APEX: 🥇 GPT 5 🥈 Grok 4 🥉 Gemini 2.5 Flash Outras descobertas: - O GPT 5 demonstra o melhor desempenho em todos os 4 domínios - Alguns modelos mais baratos superam modelos mais caros do mesmo fornecedor (por exemplo, Gemini 2.5 Flash vs. Gemini 2.5 Pro) - O melhor modelo de código aberto, Qwen (7º), apresenta um desempenho apenas 2% abaixo do Grok 4 no geral