Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
6 mois après la publication de notre article, je me souviens encore des débats sur la suppression du terme de normalisation de la longueur dans DrGRPO. Et les gens pensent progressivement que DrGRPO ne concerne que la suppression de l'écart type, ignorant le biais (de longueur) le plus important et subtil que nous avons essayé de signaler à la communauté.
Même maintenant, de nombreux articles (et code open-source) divisent encore la perte du gradient de politique par la longueur de la réponse—prenant la moyenne au lieu de la somme...
Heureusement, avec l'implémentation de Tinker comme référence, j'espère que cela sera plus convaincant pour la communauté OSS d'adopter le calcul de la perte RL non biaisée.
Tellement reconnaissant envers Thinking Machines pour avoir repoussé les limites de la science ouverte 🚀

Meilleurs
Classement
Favoris