🚀 Los agentes están aplastando duramente el SWE Bench + problemas de benchmark Polyglot