تعرف على Agent Bake-Off: اختبارات عمياء جنبا إلى جنب لوكلاء الترميز مثل Claude Code و @cursor_ai و @AmpCode و @FactoryAI و Codex والمزيد. لقد قمنا ببناء أكبر معايير العالم الحقيقي لوكلاء الترميز، ونحن متحمسون لمشاركة معاينة مبكرة لأدوات المجتمع المفتوح الخاصة بنا.
ستصبح بيانات الاستخدام في العالم الحقيقي حول كيفية استخدام الوكلاء وشرائهم أكثر أهمية مع انتشار الوكلاء. نريد أن يكون أي شخص قادرا على إجراء مقارنات عادلة ، والمساهمة في لوحات المتصدرين العامة ، وتأسيس النظام البيئي في التفضيلات الحقيقية. جربه هنا:
الأمر بسيط للغاية الآن: - اختر مستودع عام محدد مسبقا - إدخال مهمة - نقوم بتشغيله على اثنين من العملاء المجهولين لهما نفس السياق قد تستغرق بعض المهام بعض الوقت حتى تتمكن من إرسال بريدك الإلكتروني اختياريا للحصول على اختبار اتصال عندما تكون النتائج جاهزة.
عند الانتهاء تحصل على: - المخرجات والاختلافات جنبا إلى جنب - البيانات الوصفية مثل ملاحظات التفكير والأدوات المستخدمة والوقت المستغرق - تصويت أعمى لاختيار النتيجة الأفضل تغذي أصواتك وتشغيلك لوحات المتصدرين في المجتمع العام.
لا تزال هذه نسخة مبكرة جدا ، ونحن متحمسون لرؤية ما هو مفيد للناس. بعض المجالات التي نستكشفها هي: ما هو أفضل شكل واجهة المستخدم / تجربة المستخدم لمراجعة العمل الوكيل المتوازي ، وما هي البيانات الوصفية والمهام ذات القيمة ، وما إلى ذلك. * خاصة * للاستخدام في العالم الحقيقي
سنقوم أيضا بتحديث Agent Bake-Off باستمرار لإضافة المزيد من الوكلاء الحدوديين ، ومجموعات فرعية أخرى من الوكلاء (وكلاء مراجعة العلاقات العامة ، ووكلاء الأمن / الدرابزين ، وما إلى ذلك) ، لمعرفة ما إذا كان الأشخاص يريدون القدرة على إحضار المستودعات العامة / الخاصة بهم ، وما إلى ذلك.
نحن نعمل بجد لبناء أكبر معايير العالم الحقيقي ولوحات المتصدرين للوكلاء. Agent Bake-Off هي خطوة أولى صغيرة. يرجى تجربته والتصويت وتزويدنا بتعليقات حول ما قد تجده مفيدا!!
‏‎14.85‏K