Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
6 maanden na de publicatie van ons paper herinner ik me nog steeds de debatten over het verwijderen van de lengte-normalisatieterm in DrGRPO. En mensen denken geleidelijk dat DrGRPO alleen gaat om het verwijderen van de std, waarbij ze de belangrijkste en subtiele (lengte)bias negeren die we probeerden aan de gemeenschap aan te geven.
Zelfs nu delen veel papers (en open-source code) nog steeds de beleidsgradientverlies door de responslengte—de gemiddelde in plaats van de som nemen...
Gelukkig, met de implementatie van Tinker als referentie, hoop ik dat het overtuigender zal zijn voor de OSS-gemeenschap om de onbevooroordeelde RL-verliesberekening over te nemen.
Zeer dankbaar aan Thinking Machines voor het verleggen van de grenzen van open wetenschap 🚀

Boven
Positie
Favorieten