Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Các mô hình lý luận tốn kém để vận hành với các tiêu chuẩn truyền thống, nhưng thường trở nên rẻ hơn trong các quy trình tác động khi chúng đạt được câu trả lời trong ít lượt hơn.
Đến năm 2025, chúng tôi đã thấy chi phí tính toán trong thời gian thử nghiệm tăng lên chi phí của trí tuệ tiên tiến, nhưng với các quy trình tác động có một sự khác biệt quan trọng: việc đạt được câu trả lời nhanh chóng có thể giảm số lượt mặc dù mỗi lượt có chi phí cao hơn.

GPQA Diamond và 𝜏²-Bench Telecom (một tiêu chuẩn tác động yêu cầu các mô hình hoạt động trong vai trò dịch vụ khách hàng) đều cho thấy hiệu suất vượt trội cho GPT-5 và o3 so với GPT-4.1, nhưng trong khi các mô hình lý luận có chi phí chạy GPQA >10 lần, thì trong môi trường dịch vụ khách hàng của 𝜏², chúng có chi phí tương đương với GPT-4.1. o3 và GPT-4.1 hiện có chi phí token bằng nhau, vì vậy những khác biệt này hoàn toàn do hiệu quả.


9,89K
Hàng đầu
Thứ hạng
Yêu thích

