Resonneringsmodeller er dyre å kjøre med tradisjonelle benchmarks, men blir ofte billigere i agentiske arbeidsflyter ettersom de kommer til svar i færre svinger Gjennom 2025 har vi sett databehandling på testtid øke kostnadene for grensebasert intelligens, men med agentiske arbeidsflyter er det en viktig forskjell: å komme raskt til svaret kan redusere antall svinger til tross for at hver sving koster mer.
GPQA Diamond og τ²-Bench Telecom (en agentisk benchmark som krever at modeller opptrer i en kundeservicerolle) viser begge overdimensjonert ytelse for GPT-5 og o3 sammenlignet med GPT-4.1, men mens resonnementmodellene koster >10 ganger å kjøre GPQA, koster de i τ²s kundeservicemiljø omtrent det samme som GPT-4.1. o3 og GPT-4.1 har nå like token-kostnader, så disse forskjellene er drevet utelukkende av effektivitet.
9,75K