6 måneder etter papirutgivelsen vår husker jeg fortsatt debattene om å fjerne lengdenormaliseringsbegrepet i DrGRPO. Og folk tror gradvis at DrGRPO bare handler om å fjerne kjønnssykdommen, og ignorerer den viktigste og mest subtile (lengde) skjevheten vi prøvde å påpeke for samfunnet. Selv nå deler mange artikler (og åpen kildekode) fortsatt policygradienttapet med svarlengden – tar gjennomsnittet i stedet for summen ... Heldigvis, med Tinkers implementering som referanse, håper jeg det vil være mer overbevisende for OSS-fellesskapet å ta i bruk den objektive RL-tapsberegningen. Så takknemlig til Thinking Machines for å flytte grensene for åpen vitenskap 🚀