熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
今天我發佈了我的第一篇博客文章:從基本原則談代幣化。我用 Rust 預處理構建了一個字節級 BPE 代幣器,並實現了與 huggingface 代幣器相當的編碼速度。我展示了包括實現細節的想法和算法,例如使用 LRU 緩存和雙向鏈表。
在這個基礎上,我進一步推進。大多數代幣器只是通過正則表達式進行拆分,保持單詞內的合併,我們可以做得更好。我通過 SuperBPE 實現了 20% 更高的樣本效率 LLM 訓練。我演示了如何在訓練後期實現 SuperBPE,這允許在訓練過程中以相同的每字節損失進行跨單詞合併。圖表 + 代碼 + 連結在回覆中。

熱門
排行
收藏