DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Model penalaran mahal untuk dijalankan dengan tolok ukur tradisional, tetapi seringkali menjadi lebih murah dalam alur kerja agen karena mendapatkan jawaban dalam giliran yang lebih sedikit Hingga tahun 2025, kami telah melihat komputasi waktu pengujian meningkatkan biaya kecerdasan perbatasan, tetapi dengan alur kerja agen, ada perbedaan utama: mendapatkan jawaban dengan cepat dapat mengurangi jumlah putaran meskipun setiap giliran lebih mahal.

GPQA Diamond dan τ²-Bench Telecom (tolok ukur agen yang mengharuskan model untuk bertindak dalam peran layanan pelanggan) keduanya menunjukkan kinerja yang luar biasa untuk GPT-5 dan o3 dibandingkan dengan GPT-4.1, tetapi sementara model penalaran berharga >10x untuk menjalankan GPQA, di lingkungan layanan pelanggan τ² harganya hampir sama dengan GPT-4.1. o3 dan GPT-4.1 sekarang memiliki biaya token yang sama, sehingga perbedaan ini sepenuhnya didorong oleh efisiensi.

9,85K

Teratas

Peringkat

Favorit