Claude 4.5 Sonnet 在 OSWorld 计算机使用基准测试中取得了飞跃,从 42% 提升到 61% 但 OSWorld 在小型、相对简单的任务上进行测试。这如何转化为长期自我导向的能力? 我们将 Sonnet 4.5 添加到 AI Village 中以找出答案。🧵 初步印象的讨论