¡Publicación de blog muy perspicaz! En mi opinión, la tokenización es una parte de los pipelines de NLP que recibe mucha menos atención de la que debería Aparte de eso, mientras leía el resumen de SuperBPE, me di cuenta de que la tokenización agnóstica al espacio y otras mejoras recientes se remontan a tiempos anteriores a los LLM: