Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Модели рассуждений дорого обходятся при использовании традиционных бенчмарков, но часто становятся дешевле в агентных рабочих процессах, так как они приходят к ответам за меньшее количество шагов.
К 2025 году мы увидели, что вычисления во время тестирования увеличивают стоимость передового интеллекта, но в агентных рабочих процессах есть ключевое отличие: быстрое получение ответа может сократить количество шагов, несмотря на то, что каждый шаг стоит дороже.

GPQA Diamond и 𝜏²-Bench Telecom (агентный бенчмарк, требующий от моделей выполнения роли в службе поддержки клиентов) показывают выдающиеся результаты для GPT-5 и o3 по сравнению с GPT-4.1, но в то время как модели рассуждений стоят более 10 раз дороже для запуска GPQA, в среде обслуживания клиентов 𝜏² они стоят примерно столько же, сколько GPT-4.1. o3 и GPT-4.1 теперь имеют равные затраты на токены, поэтому эти различия полностью обусловлены эффективностью.


9,89K
Топ
Рейтинг
Избранное

