Hari ini saya menerbitkan posting blog pertama saya: Tokenisasi dari prinsip pertama. Saya membangun tokenizer BPE tingkat Byte dengan pra-tokenisasi Rust dan mencapai kecepatan pengkodean yang setara dengan tokenizer huggingface. Saya menunjukkan ide dan algoritma termasuk nuansa implementasi, seperti menggunakan cache LRU dan daftar yang ditautkan ganda. Dengan fondasi itu, saya mendorong lebih jauh. Sebagian besar tokenizer hanya dibagi dengan regex, menjaga penggabungan dalam kata-kata, kita bisa melakukan yang lebih baik. Saya mencapai pelatihan LLM 20% lebih efisien sampel dengan SuperBPE. Saya mendemonstrasikan cara mengimplementasikan SuperBPE yang diaktifkan di akhir pelatihan yang memungkinkan penggabungan teka-teki silang dengan kehilangan per byte yang sama selama pelatihan. Plot + kode + tautan di balasan.