Erittäin oivaltava blogikirjoitus! IMO:n tokenisointi on osa NLP-putkia, joka saa paljon vähemmän huomiota kuin sen pitäisi Sivuhuomautuksena, lukiessani SuperBPE:n yhteenvetoa, tajusin, että avaruusagnostinen tokenisointi ja muut viimeaikaiset parannukset juontavat juurensa LLM:ää edeltävään aikaan: