Mycket insiktsfullt blogginlägg! IMO-tokenisering är en del av NLP-pipelines som får mycket mindre uppmärksamhet än den borde Som en parentes, när jag läste sammanfattningen av SuperBPE, insåg jag att rymdagnostisk tokenisering och andra nya förbättringar går långt tillbaka till tiden före LLM: