跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
DEX API
探索 DEX API
DEX API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-6.02%
USELESS
-0.43%
IKUN
+27.84%
gib
-0.11%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-4.22%
ALON
-6.24%
LAUNCHCOIN
-5.89%
GOONC
-9.92%
KLED
-16.16%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.27%
Boopa
-3.34%
PORK
-0.74%
主頁
Ziniu Li
博士生 @ 香港中文大學,深圳。 實習生@Bytedance(種子地平線) 研究 RL 和 LLM。 上一篇: 實習生@Tencent(AI Lab)
查看原文
Ziniu Li
10月2日 13:51
🚀 很高興能分享我們在 Bytedance Seed 的工作! Knapsack RL:通過預算分配解鎖 LLM 的探索 🎒 在 LLM 訓練中的探索至關重要,但成本高昂。 均勻的推出分配是浪費: ✅ 簡單任務 → 總是解決 → 0 梯度 ❌ 難任務 → 總是失敗 → 0 梯度 💡 我們的想法:將探索視為一個背包問題 → 在最重要的地方分配推出。 ✨ 結果: 🔼 +20–40% 更多非零梯度 🧮 對於難任務最多可達 93 次推出(無需額外計算) 📈 整體平均提高 2–4 分,數學基準測試峰值增益 +9 💰 比均勻分配便宜約 2 倍 📄 論文:
143.1K
628
熱門
排行
收藏