6 bulan setelah rilis makalah kami, saya masih ingat perdebatan tentang penghapusan jangka waktu normalisasi panjang di DrGRPO. Dan orang-orang secara bertahap berpikir DrGRPO hanya tentang menghapus std, mengabaikan bias (panjang) yang paling penting dan halus yang kami coba tunjukkan kepada masyarakat. Bahkan sekarang, banyak makalah (dan kode sumber terbuka) masih membagi kehilangan gradien kebijakan dengan panjang respons—mengambil rata-rata alih-alih jumlah... Untungnya, dengan implementasi Tinker sebagai referensi, saya berharap akan lebih meyakinkan bagi komunitas OSS untuk mengadopsi perhitungan kerugian RL yang tidak bias. Sangat berterima kasih kepada Thinking Machines karena telah mendorong batas-batas sains 🚀 terbuka