Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoy publico mi primera entrada en el blog: Tokenización desde los primeros principios. Construí un tokenizador BPE a nivel de Byte con la pre-tokenización de Rust y logré una velocidad de codificación a la par con los tokenizadores de hugggingface. Muestro ideas y algoritmos que incluyen matices de implementación, como el uso de caché LRU y lista doblemente vinculada.
Con esa base, empujo más allá. La mayoría de los tokenizadores simplemente se dividen por expresiones regulares, manteniendo las fusiones dentro de las palabras, podemos hacerlo mejor. Logré un 20% más de capacitación LLM eficiente en muestras con SuperBPE. Demuestro cómo implementar SuperBPE habilitado al final del entrenamiento que permite fusiones de crucigramas con la misma pérdida por byte durante el entrenamiento. Gráficos + código + enlace en la respuesta.

Populares
Ranking
Favoritas