今天我发布了我的第一篇博客文章:从基本原理谈令牌化。我用Rust预处理构建了一个字节级BPE令牌器,并实现了与huggingface令牌器相当的编码速度。我展示了包括实现细节在内的想法和算法,例如使用LRU缓存和双向链表。 在这个基础上,我进一步推进。大多数令牌器只是通过正则表达式进行拆分,保持单词内的合并,我们可以做得更好。我通过SuperBPE实现了20%的样本效率更高的LLM训练。我演示了如何在训练后期实现SuperBPE,这允许在训练期间以相同的每字节损失进行跨词合并。图表 + 代码 + 回复中的链接。