Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoy publico mi primera entrada de blog: Tokenización desde los principios básicos. He construido un tokenizador BPE a nivel de byte con pre-tokenización en Rust y he logrado una velocidad de codificación comparable a la de los tokenizadores de huggingface. Muestro ideas y algoritmos, incluyendo matices de implementación, como el uso de caché LRU y listas doblemente enlazadas.
Con esa base, empujo más allá. La mayoría de los tokenizadores solo dividen por regex, manteniendo las fusiones dentro de las palabras, podemos hacerlo mejor. Logré un 20% más de eficiencia en el entrenamiento de LLM con SuperBPE. Demuestro cómo implementar SuperBPE habilitado tarde en el entrenamiento, lo que permite fusiones entre palabras con la misma pérdida por byte durante el entrenamiento. Gráficas + código + enlace en la respuesta.

Parte superior
Clasificación
Favoritos

