Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I dag publiserer jeg mitt første blogginnlegg: Tokenisering fra første prinsipper. Jeg bygde en BPE-tokenizer på byte-nivå med Rust pre-tokenization og oppnådde kodingshastighet på nivå med huggingface-tokenizere. Jeg viser ideer og algoritmer inkludert nyanser av implementering, for eksempel bruk av LRU-cache og dobbeltlenket liste.
Med det grunnlaget presser jeg videre. De fleste tokenizere deler bare etter regex, og holder sammenslåinger innenfor ord, vi kan gjøre det bedre. Jeg oppnådde 20 % mer prøveeffektiv LLM-trening med SuperBPE. Jeg demonstrerer hvordan du implementerer SuperBPE aktivert sent i opplæringen som tillater kryssordsammenslåing med samme tap per byte under trening. Plott + kode + lenke i svaret.

Topp
Rangering
Favoritter