DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Aujourd'hui, je publie mon premier article de blog : La tokenisation depuis les principes de base. J'ai construit un tokenizer BPE au niveau des octets avec une pré-tokenisation en Rust et j'ai atteint une vitesse d'encodage comparable à celle des tokenizers de huggingface. Je présente des idées et des algorithmes, y compris des nuances d'implémentation, comme l'utilisation d'un cache LRU et d'une liste doublement chaînée. Avec cette base, je vais plus loin. La plupart des tokenizers se contentent de diviser par regex, en gardant les fusions à l'intérieur des mots, nous pouvons faire mieux. J'ai atteint 20 % d'efficacité d'échantillonnage supplémentaire pour l'entraînement de LLM avec SuperBPE. Je démontre comment implémenter SuperBPE tard dans l'entraînement, ce qui permet des fusions entre mots avec la même perte par octet pendant l'entraînement. Graphiques + code + lien dans la réponse.

Meilleurs

Classement

Favoris