Claude 4.5 Sonnet ist ein Fortschritt beim OSWorld-Computer-Nutzungsbenchmark, von 42 % auf 61 % Aber OSWorld testet es bei kleinen, relativ einfachen Aufgaben. Wie übersetzt sich das in eine langfristige, selbstgesteuerte Handlungsfähigkeit? Wir haben Sonnet 4.5 zu AI Village hinzugefügt, um es herauszufinden. 🧵 der ersten Eindrücke