بعد 6 أشهر من إصدار الورقة ، ما زلت أتذكر المناقشات حول إزالة مدة تطبيع الطول في DrGRPO. ويعتقد الناس تدريجيا أن DrGRPO يتعلق فقط بإزالة الأمراض المنقولة بالاتصال الجنسي ، متجاهلا التحيز الأكثر أهمية ودقة (الطول) الذي حاولنا الإشارة إليه للمجتمع. حتى الآن ، لا تزال العديد من الأوراق (والتعليمات البرمجية مفتوحة المصدر) تقسم خسارة تدرج السياسة على طول الاستجابة - مع أخذ المتوسط بدلا من المجموع ... لحسن الحظ ، مع تنفيذ Tinker كمرجع ، آمل أن يكون أكثر إقناعا لمجتمع OSS لتبني حساب خسارة RL غير المتحيز. ممتن جدا لآلات التفكير لدفع حدود العلوم 🚀 المفتوحة