Seis meses después de la publicación de nuestro artículo, todavía recuerdo los debates sobre la eliminación del término de normalización de longitud en DrGRPO. Y la gente gradualmente piensa que DrGRPO se trata solo de eliminar la desviación estándar, ignorando el sesgo (de longitud) más importante y sutil que intentamos señalar a la comunidad. Incluso ahora, muchos artículos (y código de código abierto) todavía dividen la pérdida del gradiente de política por la longitud de respuesta, tomando la media en lugar de la suma... Afortunadamente, con la implementación de Tinker como referencia, espero que sea más convincente para la comunidad OSS adoptar el cálculo de pérdida de RL sin sesgo. Estoy muy agradecido a Thinking Machines por ampliar los límites de la ciencia abierta 🚀