Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

6 meses después de la publicación de nuestro artículo, todavía recuerdo los debates sobre la eliminación del término de normalización de la longitud en DrGRPO. Y la gente gradualmente piensa que DrGRPO se trata solo de eliminar la ETS, ignorando el sesgo (de longitud) más importante y sutil que tratamos de señalar a la comunidad. Incluso ahora, muchos artículos (y código de fuente abierta) todavía dividen la pérdida de gradiente de políticas por la longitud de la respuesta, tomando la media en lugar de la suma ... Afortunadamente, con la implementación de Tinker como referencia, espero que sea más convincente para la comunidad OSS adoptar el cálculo imparcial de pérdidas de RL. Muy agradecido con Thinking Machines por ampliar los límites de la ciencia 🚀 abierta

Populares

Ranking

Favoritas