Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
6 meses después de la publicación de nuestro artículo, todavía recuerdo los debates sobre la eliminación del término de normalización de la longitud en DrGRPO. Y la gente gradualmente piensa que DrGRPO se trata solo de eliminar la ETS, ignorando el sesgo (de longitud) más importante y sutil que tratamos de señalar a la comunidad.
Incluso ahora, muchos artículos (y código de fuente abierta) todavía dividen la pérdida de gradiente de políticas por la longitud de la respuesta, tomando la media en lugar de la suma ...
Afortunadamente, con la implementación de Tinker como referencia, espero que sea más convincente para la comunidad OSS adoptar el cálculo imparcial de pérdidas de RL.
Muy agradecido con Thinking Machines por ampliar los límites de la ciencia 🚀 abierta

Populares
Ranking
Favoritas