DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Redeneringsmodellen zijn duur om uit te voeren met traditionele benchmarks, maar worden vaak goedkoper in agentische workflows omdat ze in minder stappen tot antwoorden komen. Tot 2025 hebben we gezien dat de rekentijd tijdens het testen de kosten van grensintelligentie opdrijft, maar met agentische workflows is er een belangrijk verschil: snel tot het antwoord komen kan het aantal stappen verminderen, ondanks dat elke stap meer kost.

GPQA Diamond en 𝜏²-Bench Telecom (een agentisch benchmark waarbij modellen moeten optreden in een klantenservice rol) tonen beide een buitenproportionele prestatie voor GPT-5 en o3 vergeleken met GPT-4.1, maar terwijl de redeneermodellen meer dan 10x kosten om GPQA uit te voeren, kosten ze in 𝜏²’s klantenservice omgeving ongeveer hetzelfde als GPT-4.1. o3 en GPT-4.1 hebben nu gelijke token kosten, dus deze verschillen worden volledig gedreven door efficiëntie.

9,89K

Boven

Positie

Favorieten