Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modele rozumowania są kosztowne w uruchomieniu przy tradycyjnych benchmarkach, ale często stają się tańsze w agentowych przepływach pracy, ponieważ szybciej dochodzą do odpowiedzi w mniejszej liczbie tur.
Do 2025 roku zauważyliśmy, że obliczenia w czasie testu podnoszą koszty inteligencji granicznej, ale w przypadku agentowych przepływów pracy istnieje kluczowa różnica: szybkie dotarcie do odpowiedzi może zmniejszyć liczbę tur, mimo że każda tura kosztuje więcej.

GPQA Diamond oraz 𝜏²-Bench Telecom (benchmark agentowy wymagający, aby modele działały w roli obsługi klienta) pokazują znacznie lepsze wyniki dla GPT-5 i o3 w porównaniu do GPT-4.1, ale podczas gdy modele rozumowania kosztują >10x więcej do uruchomienia GPQA, w środowisku obsługi klienta 𝜏² kosztują mniej więcej tyle samo co GPT-4.1. o3 i GPT-4.1 mają teraz równe koszty tokenów, więc te różnice są całkowicie napędzane przez efektywność.


9,87K
Najlepsze
Ranking
Ulubione