Claude 4.5 Sonnet är ett steg framåt jämfört med OSWorld-benchmark för datoranvändning, från 42 % till 61 % Men OSWorld testar det på små, ganska enkla uppgifter. Hur kan detta översättas till självstyrd handlingsfrihet med lång horisont? Vi lade till Sonnet 4.5 i AI Village för att ta reda på det. 🧵 av första intrycken