Sei mesi dopo il rilascio del nostro documento, ricordo ancora i dibattiti sulla rimozione del termine di normalizzazione della lunghezza in DrGRPO. E la gente comincia gradualmente a pensare che DrGRPO riguardi solo la rimozione della deviazione standard, ignorando il bias (lunghezza) più importante e sottile che abbiamo cercato di evidenziare alla comunità. Anche ora, molti documenti (e codice open-source) continuano a dividere la perdita del gradiente della politica per la lunghezza della risposta, prendendo la media invece della somma... Fortunatamente, con l'implementazione di Tinker come riferimento, spero che sarà più convincente per la comunità OSS adottare il calcolo della perdita RL non biasata. Sono così grato a Thinking Machines per aver spinto i confini della scienza aperta 🚀