المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
هناك الكثير من الالتباس عبر الإنترنت حول ماهية بيئة RL حقا. 
إنه حرفيا مجرد معيار. 
- بيئة
- حالة البداية
- مدقق يتحقق مما إذا كانت الحالة النهائية صحيحة أو مقبولة
البيئة عبارة عن صندوق رمل صغير يمنح LLM فرصة للتفاعل فعليا - اتخاذ الإجراءات ، ورؤية النتائج ، والتأثير على العالم الذي يتواجد فيه. في حالة TerminalBench ، إنها مجرد حاوية Docker تحاكي محطة مطوري حقيقية ، كاملة مع الملفات والتبعيات وأدوات النظام التي يمكن للنموذج استخدامها.
تحدد حالة البداية ما يراه النموذج عند بدء المهمة - المدخلات والسياق والشروط الأولية. في معيار الترميز ، قد تكون هذه هي حالة مستودع Git عندما بدأ المستخدم العمل لأول مرة: الملفات ، وتقرير الخطأ ، والاختبارات الفاشلة ، وموجه بدء المستخدم الذي يخبر النموذج بما يجب القيام به. إنه "إعداد المشكلة" ، المجمد في الوقت المناسب ، لذلك يبدأ كل نموذج من نفس الموضع ويمكن مقارنة النتيجة بشكل عادل.
أخيرا ، المدقق هو ما يجعل الأمر برمته قابلا للقياس. إنها القطعة التي تتحقق مما إذا كان النموذج قد حل المهمة بالفعل - القاضي الآلي الذي يحول المخرجات الفوضوية إلى درجة بسيطة أو إشارة نجاح / رسوب. 
لهذا السبب تسمع الناس في المختبرات يقولون "لقد تدربنا على أدوات التحقق". إنهم يتحدثون عن وجود طريقة آلية لتسجيل سلوك النموذج. تصبح هذه بعد ذلك وظيفة المكافأة ل RL ، أو إشارة النجاح / الفشل للمعايير.

الأفضل
المُتصدِّرة
التطبيقات المفضلة

