非常有见地的博客文章!在我看来,令牌化是自然语言处理(NLP)管道的一部分,但受到的关注远远不够。 顺便提一下,在阅读 SuperBPE 的总结时,我意识到无空间令牌化和其他最近的改进可以追溯到 LLM 之前的时代: