熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
在我們的論文發表六個月後,我仍然記得關於在 DrGRPO 中移除長度正規化項的辯論。人們逐漸認為 DrGRPO 只是關於移除標準差,忽略了我們試圖向社區指出的最重要和微妙的(長度)偏差。
即使到現在,許多論文(和開源代碼)仍然將策略梯度損失除以響應長度——取平均而不是總和……
幸運的是,借助 Tinker 的實現作為參考,我希望這能更有說服力地促使 OSS 社區採用無偏的強化學習損失計算。
非常感謝 Thinking Machines 推動開放科學的邊界 🚀

熱門
排行
收藏