热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
在我们论文发布六个月后,我仍然记得关于在DrGRPO中去除长度归一化项的辩论。人们逐渐认为DrGRPO只是去掉标准差,忽视了我们试图向社区指出的最重要和微妙的(长度)偏差。
即使现在,许多论文(和开源代码)仍然将策略梯度损失除以响应长度——取平均而不是总和……
幸运的是,有了Tinker的实现作为参考,我希望这能更有说服力地让OSS社区采用无偏RL损失计算。
非常感谢Thinking Machines推动开放科学的边界 🚀

热门
排行
收藏