Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Моделі міркувань дорогі в роботі з традиційними бенчмарками, але часто дешевшають в агентичних робочих процесах, оскільки вони отримують відповіді за меншу кількість ходів
Протягом 2025 року ми бачили, як обчислення під час тестування підвищували вартість прикордонної розвідки, але з агентними робочими процесами є ключова відмінність: швидке отримання відповіді може скоротити кількість ходів, незважаючи на те, що кожен хід коштує дорожче.

GPQA Diamond і τ²-Bench Telecom (агентичний еталон, який вимагає від моделей діяти в ролі обслуговування клієнтів) обидва демонструють надзвичайну продуктивність для GPT-5 і o3 в порівнянні з GPT-4.1, але в той час як моделі обґрунтування коштують >10x для запуску GPQA, в середовищі обслуговування клієнтів τ² вони коштують приблизно стільки ж, скільки GPT-4.1. o3 і GPT-4.1 тепер мають однакову вартість токенів, тому ці відмінності повністю обумовлені ефективністю.


9,85K
Найкращі
Рейтинг
Вибране