إليكم ملخص Ritual Research Digest لهذا الأسبوع ، وهي نشرة إخبارية تغطي أحدث ما في عالم LLMs وتقاطع Crypto x الذكاء الاصطناعي. مع نشر مئات الصحف أسبوعيا ، من المستحيل البقاء على اطلاع دائم بالأحدث الصحف. سنقوم بالقراءة ، لذلك لا يتعين عليك ذلك.
قواعد التقييم كمكافآت: التعلم المعزز خارج المجالات التي يمكن التحقق منها في هذه الورقة ، قدموا القواعد كمكافآت (RaR) ، وهي طريقة RL تستخدم قواعد القائمة للإشراف على المهام التي تحتوي على معايير متعددة.
يتيح ذلك تدريبا مستقرا وأداء محسنا في كل من مجالات التفكير والعالم الحقيقي. إنها تظهر أنه عند استخدامها في مجالات الطب والعلوم ، فإن هذا النمط من المكافآت يساعد على تحقيق محاذاة بشرية أفضل.
قوائم المراجعة أفضل من نماذج المكافآت لمحاذاة نماذج اللغة في هذه الورقة ، قدموا التعلم المعزز من ملاحظات قائمة المراجعة (RLCF) لاستخراج قوائم المراجعة الديناميكية من التعليمات للتقييم على قوائم مرنة من المعايير المميزة.
يقدمون مجموعة بيانات ، WildChecklists ، تضم 130,000 تعليمات وقائمة مرجعية (تم إنشاؤها صناعيا). تقلل طريقتهم من مشكلة تصنيف الردود للإجابة على أسئلة محددة بنعم / لا ، والتي يجيب عليها قاضي الذكاء الاصطناعي أو عن طريق تنفيذ برنامج التحقق.
المقود غير المرئي: لماذا قد لا تفلت RLVR من أصلها تحاول هذه الورقة توفير إطار نظري للسؤال: "هل توسع RLVR قدرات التفكير أم تضخم ما تعرفه النماذج بالفعل؟"
وجدوا أن RLVR: لا يساعد النموذج على استكشاف إمكانيات جديدة تماما. يحسن pass@1 ، أي يسمح له بالإجابة بشكل أفضل في محاولات أقل. يقلل من تنوع الإجابات. TL ؛ dr ، RLVR يحسن الدقة ، لكنه غالبا ما يفشل في اكتشاف مسارات تفكير جديدة.
ما وراء المكافآت الثنائية: تدريب LMs على التفكير في عدم اليقين تقدم هذه الورقة RLCR (التعلم المعزز مع مكافآت المعايرة) ، وهي طريقة مباشرة تدرب LLMs على التفكير والتفكير في عدم اليقين الخاص بهم.
تكافئ طرق RL الحالية الصواب فقط ، متجاهلة ثقة LLM في حلها ، مما يحفز التخمين. تصمم الورقة مكافأة معايرة فعالة على معايير ضمان الجودة والرياضيات. وجدوا أيضا أن مقياس الثقة هذا لا يأتي بأي تكلفة للدقة.
التحجيم العكسي في حساب وقت الاختبار تقوم هذه الورقة ببناء المهام حيث يؤدي استخدام المزيد من حساب وقت الاختبار ، أي أطوال التفكير الأطول في LRMs ، إلى أداء أسوأ ، مما يدل على علاقة قياس عكسية بين المزيد من الحجم والدقة.
تابعنا @ritualdigest لمعرفة المزيد عن كل ما يتعلق بأبحاث Crypto x الذكاء الاصطناعي ، @ritualnet لمعرفة المزيد حول ما تبنيه Ritual.
‏‎3.78‏K