Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aujourd'hui, je publie mon premier article de blog : La tokenisation depuis les principes de base. J'ai construit un tokenizer BPE au niveau des octets avec une pré-tokenisation en Rust et j'ai atteint une vitesse d'encodage comparable à celle des tokenizers de huggingface. Je présente des idées et des algorithmes, y compris des nuances d'implémentation, comme l'utilisation d'un cache LRU et d'une liste doublement chaînée.
Avec cette base, je vais plus loin. La plupart des tokenizers se contentent de diviser par regex, en gardant les fusions à l'intérieur des mots, nous pouvons faire mieux. J'ai atteint 20 % d'efficacité d'échantillonnage supplémentaire pour l'entraînement de LLM avec SuperBPE. Je démontre comment implémenter SuperBPE tard dans l'entraînement, ce qui permet des fusions entre mots avec la même perte par octet pendant l'entraînement. Graphiques + code + lien dans la réponse.

Meilleurs
Classement
Favoris