6 месяцев после выхода нашей статьи, я все еще помню дебаты о том, чтобы убрать термин нормализации длины в DrGRPO. И люди постепенно начинают думать, что DrGRPO просто о том, чтобы убрать стандартное отклонение, игнорируя самый важный и тонкий (длинный) уклон, на который мы пытались указать сообществу. Даже сейчас многие статьи (и открытый код) все еще делят потерю градиента политики на длину ответа — беря среднее вместо суммы... К счастью, с реализацией Tinker в качестве ссылки, я надеюсь, что это будет более убедительно для сообщества OSS принять вычисление безукоризненной потери RL. Так благодарен Thinking Machines за расширение границ открытой науки 🚀