今天我發佈了我的第一篇博客文章:從基本原則談代幣化。我用 Rust 預處理構建了一個字節級 BPE 代幣器,並實現了與 huggingface 代幣器相當的編碼速度。我展示了包括實現細節的想法和算法,例如使用 LRU 緩存和雙向鏈表。 在這個基礎上,我進一步推進。大多數代幣器只是通過正則表達式進行拆分,保持單詞內的合併,我們可以做得更好。我通過 SuperBPE 實現了 20% 更高的樣本效率 LLM 訓練。我演示了如何在訓練後期實現 SuperBPE,這允許在訓練過程中以相同的每字節損失進行跨單詞合併。圖表 + 代碼 + 連結在回覆中。