6 meses após o lançamento do nosso artigo, ainda me lembro dos debates sobre a remoção do prazo de normalização de comprimento no DrGRPO. E as pessoas gradualmente pensam que o DrGRPO é apenas sobre a remoção do DST, ignorando o viés mais importante e sutil (comprimento) que tentamos apontar para a comunidade. Mesmo agora, muitos artigos (e código-fonte aberto) ainda dividem a perda de gradiente de política pelo comprimento da resposta - tomando a média em vez da soma ... Felizmente, com a implementação do Tinker como referência, espero que seja mais convincente para a comunidade OSS adotar o cálculo imparcial de perda de RL. Muito grato à Thinking Machines por ultrapassar os limites da ciência 🚀 aberta