Il nous faut quelques mois pour transformer la frontière de la recherche expérimentale en un produit. Mais les progrès sont si rapides que quelques mois peuvent signifier une grande différence en termes de capacités.
Ravid Shwartz Ziv
Ravid Shwartz Ziv19 juil. 2025
So, all the models underperform humans on the new International Mathematical Olympiad questions, and Grok-4 is especially bad on it, even with best-of-n selection? Unbelievable!
128,79K