Modelele de raționament sunt costisitoare de rulat cu benchmark-urile tradiționale, dar adesea devin mai ieftine în fluxurile de lucru agențice, deoarece ajung la răspunsuri în mai puține ture Până în 2025, am văzut că calculul în timpul testului a crescut costul inteligenței de frontieră, dar cu fluxurile de lucru agențice există o diferență cheie: obținerea rapidă a răspunsului poate reduce numărul de ture, în ciuda faptului că fiecare tură costă mai mult.
GPQA Diamond și τ²-Bench Telecom (un punct de referință agentic care cere modelelor să acționeze într-un rol de serviciu pentru clienți) arată ambele performanțe supradimensionate pentru GPT-5 și o3 în comparație cu GPT-4.1, dar în timp ce modelele de raționament costă >10x pentru a rula GPQA, în mediul de servicii pentru clienți al τ² costă aproximativ la fel ca GPT-4.1. o3 și GPT-4.1 au acum costuri de token egale, astfel încât aceste diferențe sunt determinate în întregime de eficiență.
9,9K