DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Hoy publico mi primera entrada de blog: Tokenización desde los principios básicos. He construido un tokenizador BPE a nivel de byte con pre-tokenización en Rust y he logrado una velocidad de codificación comparable a la de los tokenizadores de huggingface. Muestro ideas y algoritmos, incluyendo matices de implementación, como el uso de caché LRU y listas doblemente enlazadas. Con esa base, empujo más allá. La mayoría de los tokenizadores solo dividen por regex, manteniendo las fusiones dentro de las palabras, podemos hacerlo mejor. Logré un 20% más de eficiencia en el entrenamiento de LLM con SuperBPE. Demuestro cómo implementar SuperBPE habilitado tarde en el entrenamiento, lo que permite fusiones entre palabras con la misma pérdida por byte durante el entrenamiento. Gráficas + código + enlace en la respuesta.

Parte superior

Clasificación

Favoritos