在我们论文发布六个月后,我仍然记得关于在DrGRPO中去除长度归一化项的辩论。人们逐渐认为DrGRPO只是去掉标准差,忽视了我们试图向社区指出的最重要和微妙的(长度)偏差。 即使现在,许多论文(和开源代码)仍然将策略梯度损失除以响应长度——取平均而不是总和…… 幸运的是,有了Tinker的实现作为参考,我希望这能更有说服力地让OSS社区采用无偏RL损失计算。 非常感谢Thinking Machines推动开放科学的边界 🚀