Tänään julkaisen ensimmäisen blogikirjoitukseni: Tokenisointi ensimmäisistä periaatteista. Rakensin Byte-tason BPE-tokenisaattorin Rust-esitokenisoinnilla ja saavutin koodausnopeuden, joka on samanlainen kuin huggingface-tokenisoijat. Näytän ideoita ja algoritmeja, mukaan lukien toteutuksen vivahteet, kuten LRU-välimuistin ja kaksinkertaisesti linkitetyn luettelon käyttö. Tämän perustan avulla jatkan eteenpäin. Useimmat tokenisaattorit vain jaetaan säännöllisillä säännöllisillä lausekkeilla, pitäen yhdistämiset sanojen sisällä, voimme tehdä paremmin. Saavutin 20 % tehokkaamman LLM-koulutuksen SuperBPE:llä. Näytän, kuinka SuperBPE otetaan käyttöön koulutuksen loppuvaiheessa, mikä mahdollistaa ristisananylien yhdistämisen samalla tavukohtaisella häviöllä koulutuksen aikana. Kuvat + koodi + linkki vastauksessa.