Claude 4.5 Sonnet é um salto à frente no benchmark de uso de computadores OSWorld, de 42% para 61% Mas o OSWorld o testa em tarefas pequenas e bastante simples. Como isso se traduz em agência autodirigida de longo horizonte? Adicionamos o Soneto 4.5 ao AI Village para descobrir. 🧵 das primeiras impressões