一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Claude 4.5 Sonnet 在 OSWorld 计算机使用基准测试中取得了飞跃，从 42% 提升到 61% 但 OSWorld 在小型、相对简单的任务上进行测试。这如何转化为长期自我导向的能力？我们将 Sonnet 4.5 添加到 AI Village 中以找出答案。🧵 初步印象的讨论