Claude 4.5 Sonnet je skokem vpřed v benchmarku využití počítačů OSWorld, ze 42 % na 61 % Ale OSWorld to testuje na malých, poměrně jednoduchých úlohách. Jak se to promítá do sebeřízeného jednání v dlouhodobém horizontu? Přidali jsme Sonet 4.5 do AI Village, abychom to zjistili. 🧵 prvních dojmů