热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
今天我发布了我的第一篇博客文章:从基本原理谈令牌化。我用Rust预处理构建了一个字节级BPE令牌器,并实现了与huggingface令牌器相当的编码速度。我展示了包括实现细节在内的想法和算法,例如使用LRU缓存和双向链表。
在这个基础上,我进一步推进。大多数令牌器只是通过正则表达式进行拆分,保持单词内的合并,我们可以做得更好。我通过SuperBPE实现了20%的样本效率更高的LLM训练。我演示了如何在训练后期实现SuperBPE,这允许在训练期间以相同的每字节损失进行跨词合并。图表 + 代码 + 回复中的链接。

热门
排行
收藏