Claude 4.5 Sonnet 在 OSWorld 電腦使用基準上取得了飛躍性的進展,從 42% 提升至 61% 但 OSWorld 在小型且相對簡單的任務上進行測試。這如何轉化為長期自我導向的能力? 我們將 Sonnet 4.5 添加到 AI Village 以了解更多。🧵 初步印象的串連