I modelli di ragionamento sono costosi da eseguire con benchmark tradizionali, ma spesso diventano più economici nei flussi di lavoro agentici poiché arrivano alle risposte in meno passaggi. Fino al 2025 abbiamo visto il calcolo durante il test aumentare il costo dell'intelligenza di frontiera, ma con i flussi di lavoro agentici c'è una differenza chiave: arrivare rapidamente alla risposta può ridurre il numero di passaggi nonostante ogni passaggio costi di più.
GPQA Diamond e 𝜏²-Bench Telecom (un benchmark agentico che richiede ai modelli di agire in un ruolo di servizio clienti) mostrano entrambi prestazioni eccezionali per GPT-5 e o3 rispetto a GPT-4.1, ma mentre i modelli di ragionamento costano più di 10 volte per eseguire GPQA, nell'ambiente di servizio clienti di 𝜏² costano circa quanto GPT-4.1. o3 e GPT-4.1 hanno ora costi di token uguali, quindi queste differenze sono guidate interamente dall'efficienza.
9,85K