Idag publicerar jag mitt första blogginlägg: Tokenisering från första principer. Jag byggde en BPE-tokenizer på Byte-nivå med Rust-förtokenisering och uppnådde en kodningshastighet i nivå med huggingface-tokeniserare. Jag visar idéer och algoritmer, inklusive nyanser av implementering, till exempel användning av LRU-cache och dubbellänkad lista. Med den grunden tar jag mig vidare. De flesta tokeniserare delar bara upp efter regex och håller sammanslagningar inom ord, vi kan göra det bättre. Jag uppnådde 20 % mer proveffektiv LLM-utbildning med SuperBPE. Jag demonstrerar hur man implementerar SuperBPE aktiverat sent i träningen som tillåter korsordssammanslagningar med samma förlust per byte under träningen. Tomter + kod + länk i svaret.