跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
DEX API
探索 DEX API
DEX API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+17.63%
USELESS
+3.75%
IKUN
+15.41%
gib
-0.16%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+4.88%
ALON
+4.11%
LAUNCHCOIN
+13.91%
GOONC
+2.58%
KLED
+29.81%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+0.34%
Boopa
+12.58%
PORK
+6.96%
主頁
George Grigorev
微調,評估 at @togethercompute,罕見的精品咖啡愛好者
查看原文
George Grigorev
10月7日 22:04
今天我發佈了我的第一篇博客文章:從基本原則談代幣化。我用 Rust 預處理構建了一個字節級 BPE 代幣器,並實現了與 huggingface 代幣器相當的編碼速度。我展示了包括實現細節的想法和算法,例如使用 LRU 緩存和雙向鏈表。 在這個基礎上,我進一步推進。大多數代幣器只是通過正則表達式進行拆分,保持單詞內的合併,我們可以做得更好。我通過 SuperBPE 實現了 20% 更高的樣本效率 LLM 訓練。我演示了如何在訓練後期實現 SuperBPE,這允許在訓練過程中以相同的每字節損失進行跨單詞合併。圖表 + 代碼 + 連結在回覆中。
19.68K
314
熱門
排行
收藏