Seis meses após o lançamento do nosso artigo, ainda me lembro dos debates sobre a remoção do termo de normalização de comprimento no DrGRPO. E as pessoas gradualmente pensam que o DrGRPO se resume a remover o desvio padrão, ignorando o viés (de comprimento) mais importante e sutil que tentamos apontar para a comunidade. Mesmo agora, muitos artigos (e código aberto) ainda dividem a perda do gradiente de política pelo comprimento da resposta—tomando a média em vez da soma... Felizmente, com a implementação do Tinker como referência, espero que seja mais convincente para a comunidade OSS adotar o cálculo da perda de RL não tendenciosa. Sou muito grato à Thinking Machines por expandir os limites da ciência aberta 🚀