Resonemangsmodeller är dyra att köra med traditionella riktmärken, men blir ofta billigare i agentiska arbetsflöden eftersom de kommer fram till svar i färre omgångar Fram till 2025 har vi sett att beräkning i testtid har drivit upp kostnaden för gränsintelligens, men med agentiska arbetsflöden finns det en viktig skillnad: att snabbt komma fram till svaret kan minska antalet varv trots att varje varv kostar mer.
GPQA Diamond och τ²-Bench Telecom (ett agentiskt riktmärke som kräver att modeller agerar i en kundtjänstroll) visar båda överdimensionerad prestanda för GPT-5 och o3 jämfört med GPT-4.1, men medan resonemangsmodellerna kostar 10 > gånger för att köra GPQA, kostar de i τ²:s kundtjänstmiljö ungefär lika mycket som GPT-4.1. o3 och GPT-4.1 har nu lika stora tokenkostnader, så dessa skillnader drivs helt och hållet av effektivitet.
9,9K