المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
تعد نماذج التفكير باهظة الثمن للتشغيل باستخدام المعايير التقليدية ، ولكنها غالبا ما تصبح أرخص في مهام سير العمل الوكيل حيث تحصل على إجابات في منعطفات أقل
خلال عام 2025 ، رأينا حوسبة وقت الاختبار ترفع تكلفة الذكاء الحدودي ، ولكن مع سير العمل الوكيل ، هناك فرق رئيسي: يمكن أن يؤدي الوصول إلى الإجابة بسرعة إلى تقليل عدد المنعطفات على الرغم من أن كل دورة تكلف أكثر.

يظهر كل من GPQA Diamond و τ²-Bench Telecom (معيار وكيل يتطلب من النماذج العمل في دور خدمة العملاء) أداء ضخما ل GPT-5 و o3 مقارنة ب GPT-4.1 ، ولكن في حين أن نماذج التفكير تكلف >10x لتشغيل GPQA ، في بيئة خدمة العملاء في τ² تكلفتها نفس تكلفة GPT-4.1 تقريبا. o3 و GPT-4.1 لهما الآن تكاليف رمزية متساوية ، لذا فإن هذه الاختلافات مدفوعة بالكامل بالكفاءة.


9.87K
الأفضل
المُتصدِّرة
التطبيقات المفضلة

