A IA tem seu PhD e agora está no mercado de trabalho. Apresentamos o Índice de Produtividade de IA (APEX), um benchmark que mede o quão bem automatizamos os setores mais valiosos do mundo. A maioria dos benchmarks estuda capacidades abstratas. O APEX avalia o desempenho do modelo em entregas reais em direito, finanças, consultoria e medicina. Os modelos mais capazes de fazer o trabalho hoje, de acordo com a APEX: 🥇 GPT 5 🥈 Grok 4 🥉 Gêmeos 2.5 Flash Outras descobertas: - GPT 5 demonstra o desempenho mais forte em todos os 4 domínios - Alguns modelos mais baratos superam os modelos mais caros do mesmo fornecedor (por exemplo, Gemini 2.5 Flash vs. Gemini 2.5 Pro) - O melhor modelo de código aberto, Qwen (7º), tem desempenho de apenas 2% atrás do Grok 4 no geral