一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

在我们论文发布六个月后，我仍然记得关于在DrGRPO中去除长度归一化项的辩论。人们逐渐认为DrGRPO只是去掉标准差，忽视了我们试图向社区指出的最重要和微妙的（长度）偏差。即使现在，许多论文（和开源代码）仍然将策略梯度损失除以响应长度——取平均而不是总和…… 幸运的是，有了Tinker的实现作为参考，我希望这能更有说服力地让OSS社区采用无偏RL损失计算。非常感谢Thinking Machines推动开放科学的边界 🚀