6 månader efter vår artikelrelease minns jag fortfarande debatterna om att ta bort längdnormaliseringstermen i DrGRPO. Och folk tror gradvis att DrGRPO bara handlar om att ta bort könssjukdomar, och ignorerar den viktigaste och mest subtila (längd) biasen som vi försökte påpeka för samhället. Till och med nu dividerar många artiklar (och öppen källkod) fortfarande förlusten av policygradient med svarslängden – genom att ta medelvärdet i stället för summan ... Lyckligtvis, med Tinkers implementering som referens, hoppas jag att det kommer att vara mer övertygande för OSS-gemenskapen att anta den opartiska RL-förlustberäkningen. Jag är så tacksam för att Thinking Machines tänjer på gränserna för öppen vetenskap 🚀