DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

6 maanden na de publicatie van ons paper herinner ik me nog steeds de debatten over het verwijderen van de lengte-normalisatieterm in DrGRPO. En mensen denken geleidelijk dat DrGRPO alleen gaat om het verwijderen van de std, waarbij ze de belangrijkste en subtiele (lengte)bias negeren die we probeerden aan de gemeenschap aan te geven. Zelfs nu delen veel papers (en open-source code) nog steeds de beleidsgradientverlies door de responslengte—de gemiddelde in plaats van de som nemen... Gelukkig, met de implementatie van Tinker als referentie, hoop ik dat het overtuigender zal zijn voor de OSS-gemeenschap om de onbevooroordeelde RL-verliesberekening over te nemen. Zeer dankbaar aan Thinking Machines voor het verleggen van de grenzen van open wetenschap 🚀

Boven

Positie

Favorieten