6 kuukautta paperin julkaisun jälkeen muistan edelleen keskustelut pituuden normalisointitermin poistamisesta DrGRPO:ssa. Ja ihmiset ajattelevat vähitellen, että DrGRPO:ssa on kyse vain sukupuolitaudin poistamisesta, jättäen huomiotta tärkeimmän ja hienovaraisimman (pituuden) harhan, jonka yritimme osoittaa yhteisölle. Vielä nykyäänkin monet artikkelit (ja avoimen lähdekoodin koodi) jakavat käytäntögradientin häviön vastauksen pituudella – ottaen keskiarvon summan sijaan... Onneksi Tinkerin toteutuksen ollessa viitteenä toivon, että OSS-yhteisölle on vakuuttavampaa ottaa käyttöön puolueeton RL-häviölaskenta. Olen niin kiitollinen Thinking Machinesille avoimen tieteen 🚀 rajojen ylittämisestä