DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

6 mois après la publication de notre article, je me souviens encore des débats sur la suppression du terme de normalisation de la longueur dans DrGRPO. Et les gens pensent progressivement que DrGRPO ne concerne que la suppression de l'écart type, ignorant le biais (de longueur) le plus important et subtil que nous avons essayé de signaler à la communauté. Même maintenant, de nombreux articles (et code open-source) divisent encore la perte du gradient de politique par la longueur de la réponse—prenant la moyenne au lieu de la somme... Heureusement, avec l'implémentation de Tinker comme référence, j'espère que cela sera plus convaincant pour la communauté OSS d'adopter le calcul de la perte RL non biaisée. Tellement reconnaissant envers Thinking Machines pour avoir repoussé les limites de la science ouverte 🚀

Meilleurs

Classement

Favoris