Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Redeneringsmodellen zijn duur om uit te voeren met traditionele benchmarks, maar worden vaak goedkoper in agentische workflows omdat ze in minder stappen tot antwoorden komen.
Tot 2025 hebben we gezien dat de rekentijd tijdens het testen de kosten van grensintelligentie opdrijft, maar met agentische workflows is er een belangrijk verschil: snel tot het antwoord komen kan het aantal stappen verminderen, ondanks dat elke stap meer kost.

GPQA Diamond en 𝜏²-Bench Telecom (een agentisch benchmark waarbij modellen moeten optreden in een klantenservice rol) tonen beide een buitenproportionele prestatie voor GPT-5 en o3 vergeleken met GPT-4.1, maar terwijl de redeneermodellen meer dan 10x kosten om GPQA uit te voeren, kosten ze in 𝜏²’s klantenservice omgeving ongeveer hetzelfde als GPT-4.1. o3 en GPT-4.1 hebben nu gelijke token kosten, dus deze verschillen worden volledig gedreven door efficiëntie.


9,89K
Boven
Positie
Favorieten

