Ich mag diese Benchmarks nicht. Ich hätte gerne einen Vergleich zwischen Sonnet 4.5, GPT-4 und Grok-4 gesehen.