Article de blog très instructif ! À mon avis, la tokenisation fait partie des pipelines de NLP qui reçoivent beaucoup moins d'attention qu'ils ne le devraient En passant, en lisant le résumé de SuperBPE, j'ai réalisé que la tokenisation indépendante de l'espace et d'autres améliorations récentes remontent à l'époque pré-LLM :