Päättelymallit ovat kalliita käyttää perinteisillä vertailuarvoilla, mutta ne ovat usein halvempia agenttien työnkuluissa, koska ne saavat vastauksia harvemmilla kierroksilla Vuoden 2025 aikana olemme nähneet testiaikaisen laskennan nostavan rajatiedustelun kustannuksia, mutta agenttityönkuluissa on keskeinen ero: vastauksen nopea löytäminen voi vähentää vuorojen määrää, vaikka jokainen vuoro maksaa enemmän.
GPQA Diamond ja τ²-Bench Telecom (agenttinen vertailuarvo, joka vaatii malleja toimimaan asiakaspalveluroolissa) osoittavat molemmat ylisuurta suorituskykyä GPT-5:lle ja o3:lle verrattuna GPT-4.1:een, mutta vaikka päättelymallit maksavat >10x GPQA:n suorittamisesta, τ²:n asiakaspalveluympäristössä ne maksavat suunnilleen saman verran kuin GPT-4.1. o3:lla ja GPT-4.1:llä on nyt samat token-kustannukset, joten nämä erot johtuvat täysin tehokkuudesta.
9,75K