Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Resonemangsmodeller är dyra att köra med traditionella riktmärken, men blir ofta billigare i agentiska arbetsflöden eftersom de kommer fram till svar i färre omgångar
Fram till 2025 har vi sett att beräkning i testtid har drivit upp kostnaden för gränsintelligens, men med agentiska arbetsflöden finns det en viktig skillnad: att snabbt komma fram till svaret kan minska antalet varv trots att varje varv kostar mer.

GPQA Diamond och τ²-Bench Telecom (ett agentiskt riktmärke som kräver att modeller agerar i en kundtjänstroll) visar båda överdimensionerad prestanda för GPT-5 och o3 jämfört med GPT-4.1, men medan resonemangsmodellerna kostar 10 > gånger för att köra GPQA, kostar de i τ²:s kundtjänstmiljö ungefär lika mycket som GPT-4.1. o3 och GPT-4.1 har nu lika stora tokenkostnader, så dessa skillnader drivs helt och hållet av effektivitet.


9,9K
Topp
Rankning
Favoriter

