今日、私は最初のブログ投稿を公開します: 第一原理からのトークン化。Rust の事前トークン化を使用して Byte レベルの BPE トークナイザーを構築し、huggingface トークナイザーと同等のエンコード速度を実現しました。LRUキャッシュや二重リンクリストの使用など、実装のニュアンスを含むアイデアとアルゴリズムを示します。 その基盤をもとに、私はさらに前進します。ほとんどのトークナイザーは正規表現で分割し、マージを単語内に保持するだけで、よりうまくいくことができます。SuperBPE を使用すると、サンプル効率の高い LLM トレーニングが 20% 向上しました。トレーニングの後半で有効になっているSuperBPEを実装して、トレーニング中に同じバイトあたりの損失でクロスワードマージを可能にする方法を示します。プロット + コード + 応答のリンク。