🚀 Os agentes estão a esmagar os problemas do SWE Bench e do benchmark Polyglot.