在我們的論文發表六個月後,我仍然記得關於在 DrGRPO 中移除長度正規化項的辯論。人們逐漸認為 DrGRPO 只是關於移除標準差,忽略了我們試圖向社區指出的最重要和微妙的(長度)偏差。 即使到現在,許多論文(和開源代碼)仍然將策略梯度損失除以響應長度——取平均而不是總和…… 幸運的是,借助 Tinker 的實現作為參考,我希望這能更有說服力地促使 OSS 社區採用無偏的強化學習損失計算。 非常感謝 Thinking Machines 推動開放科學的邊界 🚀