Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I modelli di ragionamento sono costosi da eseguire con benchmark tradizionali, ma spesso diventano più economici nei flussi di lavoro agentici poiché arrivano alle risposte in meno passaggi.
Fino al 2025 abbiamo visto il calcolo durante il test aumentare il costo dell'intelligenza di frontiera, ma con i flussi di lavoro agentici c'è una differenza chiave: arrivare rapidamente alla risposta può ridurre il numero di passaggi nonostante ogni passaggio costi di più.

GPQA Diamond e 𝜏²-Bench Telecom (un benchmark agentico che richiede ai modelli di agire in un ruolo di servizio clienti) mostrano entrambi prestazioni eccezionali per GPT-5 e o3 rispetto a GPT-4.1, ma mentre i modelli di ragionamento costano più di 10 volte per eseguire GPQA, nell'ambiente di servizio clienti di 𝜏² costano circa quanto GPT-4.1. o3 e GPT-4.1 hanno ora costi di token uguali, quindi queste differenze sono guidate interamente dall'efficienza.


9,85K
Principali
Ranking
Preferiti