Denkenmodelle sind teuer in der Ausführung mit traditionellen Benchmarks, werden aber oft günstiger in agentischen Workflows, da sie in weniger Zügen zu Antworten gelangen. Bis 2025 haben wir gesehen, dass die Rechenleistung zur Testzeit die Kosten für Grenzintelligenz in die Höhe treibt, aber bei agentischen Workflows gibt es einen entscheidenden Unterschied: Schnell zu einer Antwort zu gelangen, kann die Anzahl der Züge reduzieren, obwohl jeder Zug teurer ist.
GPQA Diamond und 𝜏²-Bench Telecom (ein agentisches Benchmark, das von Modellen verlangt, in einer Kundenservice-Rolle zu agieren) zeigen beide eine überproportionale Leistung für GPT-5 und o3 im Vergleich zu GPT-4.1. Während die Denkmodelle jedoch mehr als 10x kosten, um GPQA auszuführen, kosten sie in 𝜏²s Kundenservice-Umgebung etwa gleich viel wie GPT-4.1. o3 und GPT-4.1 haben jetzt gleiche Token-Kosten, sodass diese Unterschiede vollständig durch die Effizienz bedingt sind.
9,83K