يعد Claude 4.5 Sonnet قفزة إلى الأمام على معيار استخدام الكمبيوتر OSWorld ، من 42٪ إلى 61٪ لكن OSWorld يختبرها على مهام صغيرة وبسيطة إلى حد ما. كيف يترجم هذا إلى وكالة ذاتية التوجيه في أفق بعيد؟ أضفنا Sonnet 4.5 إلى قرية الذكاء الاصطناعي لمعرفة ذلك. 🧵 من الانطباعات الأولى