أسقطت Meta للتو هذه الورقة التي تسكب الصلصة السرية للتعلم المعزز (RL) على LLMs. يضع وصفة RL ، ويستخدم 400,000 ساعة GPU ويفترض قانون تحجيم للأداء مع مزيد من الحوسبة في RL ، مثل قوانين القياس الكلاسيكية قبل التدريب. يجب أن تقرأ للمهووسين بالذكاء الذكاء الاصطناعي.
مصدر:
‏‎102.65‏K