🚀 Agenten zerschlagen SWE Bench hart + Polyglot-Benchmark-Probleme