Eu não gosto desses benchmarks. Adoraria ter visto alguma comparação entre Sonnet 4.5, GPT-4 e Grok-4