トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
今日、私は最初のブログ投稿を公開します: 第一原理からのトークン化。Rust の事前トークン化を使用して Byte レベルの BPE トークナイザーを構築し、huggingface トークナイザーと同等のエンコード速度を実現しました。LRUキャッシュや二重リンクリストの使用など、実装のニュアンスを含むアイデアとアルゴリズムを示します。
その基盤をもとに、私はさらに前進します。ほとんどのトークナイザーは正規表現で分割し、マージを単語内に保持するだけで、よりうまくいくことができます。SuperBPE を使用すると、サンプル効率の高い LLM トレーニングが 20% 向上しました。トレーニングの後半で有効になっているSuperBPEを実装して、トレーニング中に同じバイトあたりの損失でクロスワードマージを可能にする方法を示します。プロット + コード + 応答のリンク。

トップ
ランキング
お気に入り