Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Model penalaran mahal untuk dijalankan dengan tolok ukur tradisional, tetapi seringkali menjadi lebih murah dalam alur kerja agen karena mendapatkan jawaban dalam giliran yang lebih sedikit
Hingga tahun 2025, kami telah melihat komputasi waktu pengujian meningkatkan biaya kecerdasan perbatasan, tetapi dengan alur kerja agen, ada perbedaan utama: mendapatkan jawaban dengan cepat dapat mengurangi jumlah putaran meskipun setiap giliran lebih mahal.

GPQA Diamond dan τ²-Bench Telecom (tolok ukur agen yang mengharuskan model untuk bertindak dalam peran layanan pelanggan) keduanya menunjukkan kinerja yang luar biasa untuk GPT-5 dan o3 dibandingkan dengan GPT-4.1, tetapi sementara model penalaran berharga >10x untuk menjalankan GPQA, di lingkungan layanan pelanggan τ² harganya hampir sama dengan GPT-4.1. o3 dan GPT-4.1 sekarang memiliki biaya token yang sama, sehingga perbedaan ini sepenuhnya didorong oleh efisiensi.


9,85K
Teratas
Peringkat
Favorit