Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modelele de raționament sunt costisitoare de rulat cu benchmark-urile tradiționale, dar adesea devin mai ieftine în fluxurile de lucru agențice, deoarece ajung la răspunsuri în mai puține ture
Până în 2025, am văzut că calculul în timpul testului a crescut costul inteligenței de frontieră, dar cu fluxurile de lucru agențice există o diferență cheie: obținerea rapidă a răspunsului poate reduce numărul de ture, în ciuda faptului că fiecare tură costă mai mult.

GPQA Diamond și τ²-Bench Telecom (un punct de referință agentic care cere modelelor să acționeze într-un rol de serviciu pentru clienți) arată ambele performanțe supradimensionate pentru GPT-5 și o3 în comparație cu GPT-4.1, dar în timp ce modelele de raționament costă >10x pentru a rula GPQA, în mediul de servicii pentru clienți al τ² costă aproximativ la fel ca GPT-4.1. o3 și GPT-4.1 au acum costuri de token egale, astfel încât aceste diferențe sunt determinate în întregime de eficiență.


9,9K
Limită superioară
Clasament
Favorite

