I dag publiserer jeg mitt første blogginnlegg: Tokenisering fra første prinsipper. Jeg bygde en BPE-tokenizer på byte-nivå med Rust pre-tokenization og oppnådde kodingshastighet på nivå med huggingface-tokenizere. Jeg viser ideer og algoritmer inkludert nyanser av implementering, for eksempel bruk av LRU-cache og dobbeltlenket liste. Med det grunnlaget presser jeg videre. De fleste tokenizere deler bare etter regex, og holder sammenslåinger innenfor ord, vi kan gjøre det bedre. Jeg oppnådde 20 % mer prøveeffektiv LLM-trening med SuperBPE. Jeg demonstrerer hvordan du implementerer SuperBPE aktivert sent i opplæringen som tillater kryssordsammenslåing med samme tap per byte under trening. Plott + kode + lenke i svaret.