一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

在我們的論文發表六個月後，我仍然記得關於在 DrGRPO 中移除長度正規化項的辯論。人們逐漸認為 DrGRPO 只是關於移除標準差，忽略了我們試圖向社區指出的最重要和微妙的（長度）偏差。即使到現在，許多論文（和開源代碼）仍然將策略梯度損失除以響應長度——取平均而不是總和…… 幸運的是，借助 Tinker 的實現作為參考，我希望這能更有說服力地促使 OSS 社區採用無偏的強化學習損失計算。非常感謝 Thinking Machines 推動開放科學的邊界 🚀