إليك ملخص Ritual Research Digest لهذا الأسبوع ، وهي نشرة إخبارية تغطي أحدث ما في عالم LLMs وتقاطع Crypto x الذكاء الاصطناعي. مع نشر مئات الصحف أسبوعيا ، من المستحيل البقاء على اطلاع دائم بالأحدث الصحف. نقوم بالقراءة حتى لا تضطر إلى ذلك.
تسأل هذه الورقة: ما الذي يجب التحقق منه؟ كيفية التحقق؟ ولماذا تتحقق على الإطلاق؟ ووجدوا أن قيمة التحقق تعتمد على عدم وجود إنفاذ صارم للغاية يتجاهل الحلول المعقولة ، بينما يسمح تجاهل التحقق تماما للبيانات منخفضة الجودة بالهيمنة.
التباين في التحقق: فهم ديناميكيات التحقق في نماذج اللغات الكبيرة تدرس الورقة العوامل التي تؤثر على نجاح التحقق - صعوبة المشكلة - قدرة توليد المولدات - قدرة توليد المدقين.
وجدوا ما يلي: - من المرجح أن يتعرف المدققون على الحلول الصحيحة للمشاكل السهلة - الأخطاء التي ترتكبها المولدات الضعيفة أسهل في الاكتشاف من تلك التي ترتكبها المولدات القوية - ترتبط قدرة توليد المدقق بالأداء في صعوبة المشكلة.
التعلم المعزز على بيانات ما قبل التدريب تقترح الورقة RLPT ، الذي يوسع RL على بيانات ما قبل التدريب. يقترحون هدفا منطقيا للجزء التالي يكافئ LLMs للتنبؤ بالجزء التالي بشكل صحيح بالنظر إلى السياق السابق.
تظهر التجارب المكثفة على المجال العام والتفكير الرياضي أن RLPT يحسن الأداء بشكل كبير ويظهر اتجاها مواتيا للتوسع ، وتظهر أيضا أن RLPT يوفر أساسا قويا ل RLVR اللاحق.
ARE: توسيع نطاق بيئات الوكيل والتقييمات تقترح هذه الورقة بيئات أبحاث Meta Agents (ARE) ، وهي منصة تدعم التنسيقات وإنشاء البيئات وتوصيل التطبيقات لتطوير الوكيل وتقييمه.
تقدم الورقة أيضا Gaia2 ، وهو تقييم للوكلاء. يتكون Gaia2 من 1,120 سيناريو مشروحا يمكن التحقق منه يحدث في بيئة الهاتف المحمول ، ويحاكي هاتفا ذكيا بتطبيقات مثل البريد الإلكتروني والمراسلة والتقويم. وجدوا أن gpt-5 العالي يعمل بشكل أفضل.
تابعنا @ritualdigest لمعرفة المزيد حول كل ما يتعلق بالبحث عن العملات المشفرة x الذكاء الاصطناعي ، و @ritualnet لمعرفة المزيد حول ما تبنيه Ritual.
‏‎8.55‏K