Hoje estou publicando minha primeira postagem no blog: Tokenização a partir dos primeiros princípios. Eu construí um tokenizador BPE em nível de byte com pré-tokenização Rust e alcancei velocidade de codificação no mesmo nível dos tokenizadores huggingface. Eu mostro ideias e algoritmos, incluindo nuances de implementação, como o uso de cache LRU e lista duplamente vinculada. Com essa base, eu vou mais longe. A maioria dos tokenizers apenas se divide por regex, mantendo as mesclagens dentro das palavras, podemos fazer melhor. Alcancei um treinamento LLM 20% mais eficiente em amostras com SuperBPE. Demonstro como implementar o SuperBPE habilitado no final do treinamento que permite mesclagens de palavras cruzadas com a mesma perda por byte durante o treinamento. Parcelas + código + link na resposta.