一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

發現功能使用指南

background background

discoveryBanners

熱門話題

#

Bonk 生態迷因幣展現強韌勢頭

#

有消息稱 Pump.fun 計劃 40 億估值發幣，引發市場猜測

LAUNCHCOIN-14.32%

#

Solana 新代幣發射平臺 Boop.Fun 風頭正勁

header

Zichen Liu

博士生，RL 信徒@SeaAIL @NUSingapore。

Zichen Liu

Zichen Liu10月3日 11:59

在我們的論文發表六個月後，我仍然記得關於在 DrGRPO 中移除長度正規化項的辯論。人們逐漸認為 DrGRPO 只是關於移除標準差，忽略了我們試圖向社區指出的最重要和微妙的（長度）偏差。即使到現在，許多論文（和開源代碼）仍然將策略梯度損失除以響應長度——取平均而不是總和…… 幸運的是，借助 Tinker 的實現作為參考，我希望這能更有說服力地促使 OSS 社區採用無偏的強化學習損失計算。非常感謝 Thinking Machines 推動開放科學的邊界 🚀

36.98K

熱門

排行

收藏

©2017 - 2025 WEB3.OKX.COM

繁體中文简体中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

關於 OKX Wallet

下載學院關於我們就業機會聯繫我們服務條款隱私政策 X (原推特)

產品

行情幣幣兌換市場賺幣發現開發者中心瀏覽器安全

用戶支持

幫助中心官方渠道驗證公告 DEX 費率標準加入 OKX 社群比特幣錢包以太坊錢包 Solana 錢包