DApp Store | Web3 Hub for hendelser og spill

Populære emner

Resonneringsmodeller er dyre å kjøre med tradisjonelle benchmarks, men blir ofte billigere i agentiske arbeidsflyter ettersom de kommer til svar i færre svinger Gjennom 2025 har vi sett databehandling på testtid øke kostnadene for grensebasert intelligens, men med agentiske arbeidsflyter er det en viktig forskjell: å komme raskt til svaret kan redusere antall svinger til tross for at hver sving koster mer.

GPQA Diamond og τ²-Bench Telecom (en agentisk benchmark som krever at modeller opptrer i en kundeservicerolle) viser begge overdimensjonert ytelse for GPT-5 og o3 sammenlignet med GPT-4.1, men mens resonnementmodellene koster >10 ganger å kjøre GPQA, koster de i τ²s kundeservicemiljø omtrent det samme som GPT-4.1. o3 og GPT-4.1 har nå like token-kostnader, så disse forskjellene er drevet utelukkende av effektivitet.

9,75K

Topp

Rangering

Favoritter