Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoje estou publicando minha primeira postagem no blog: Tokenização a partir dos primeiros princípios. Eu construí um tokenizador BPE em nível de byte com pré-tokenização Rust e alcancei velocidade de codificação no mesmo nível dos tokenizadores huggingface. Eu mostro ideias e algoritmos, incluindo nuances de implementação, como o uso de cache LRU e lista duplamente vinculada.
Com essa base, eu vou mais longe. A maioria dos tokenizers apenas se divide por regex, mantendo as mesclagens dentro das palavras, podemos fazer melhor. Alcancei um treinamento LLM 20% mais eficiente em amostras com SuperBPE. Demonstro como implementar o SuperBPE habilitado no final do treinamento que permite mesclagens de palavras cruzadas com a mesma perda por byte durante o treinamento. Parcelas + código + link na resposta.

Melhores
Classificação
Favoritos