Hôm nay tôi xuất bản bài viết blog đầu tiên của mình: Tokenization từ những nguyên tắc cơ bản. Tôi đã xây dựng một bộ tokenizer BPE cấp Byte với tiền xử lý bằng Rust và đạt được tốc độ mã hóa tương đương với các bộ tokenizer của huggingface. Tôi trình bày các ý tưởng và thuật toán bao gồm những sắc thái của việc triển khai, chẳng hạn như sử dụng bộ nhớ đệm LRU và danh sách liên kết đôi. Với nền tảng đó, tôi tiến xa hơn. Hầu hết các bộ tokenizer chỉ chia theo regex, giữ lại các phép gộp trong từ, chúng ta có thể làm tốt hơn. Tôi đã đạt được hiệu quả mẫu cao hơn 20% trong việc đào tạo LLM với SuperBPE. Tôi chứng minh cách triển khai SuperBPE được kích hoạt muộn trong quá trình đào tạo cho phép gộp qua từ với cùng mức tổn thất theo byte trong quá trình đào tạo. Biểu đồ + mã + liên kết trong phản hồi.