تعد نماذج التفكير باهظة الثمن للتشغيل باستخدام المعايير التقليدية ، ولكنها غالبا ما تصبح أرخص في مهام سير العمل الوكيل حيث تحصل على إجابات في منعطفات أقل خلال عام 2025 ، رأينا حوسبة وقت الاختبار ترفع تكلفة الذكاء الحدودي ، ولكن مع سير العمل الوكيل ، هناك فرق رئيسي: يمكن أن يؤدي الوصول إلى الإجابة بسرعة إلى تقليل عدد المنعطفات على الرغم من أن كل دورة تكلف أكثر.
يظهر كل من GPQA Diamond و τ²-Bench Telecom (معيار وكيل يتطلب من النماذج العمل في دور خدمة العملاء) أداء ضخما ل GPT-5 و o3 مقارنة ب GPT-4.1 ، ولكن في حين أن نماذج التفكير تكلف >10x لتشغيل GPQA ، في بيئة خدمة العملاء في τ² تكلفتها نفس تكلفة GPT-4.1 تقريبا. o3 و GPT-4.1 لهما الآن تكاليف رمزية متساوية ، لذا فإن هذه الاختلافات مدفوعة بالكامل بالكفاءة.
‏‎9.87‏K