🚀 Os agentes estão esmagando o SWE Bench com força + problemas de benchmark poliglota