Claude 4.5 Sonnet é um avanço no benchmark de uso de computadores OSWorld, de 42% para 61% Mas os testes do OSWorld são feitos em tarefas pequenas e relativamente simples. Como isso se traduz em autonomia autodirigida a longo prazo? Adicionámos o Sonnet 4.5 à AI Village para descobrir. 🧵 das primeiras impressões