Sehr aufschlussreicher Blogbeitrag! Meiner Meinung nach ist die Tokenisierung ein Teil von NLP-Pipelines, dem viel weniger Aufmerksamkeit geschenkt wird, als es sollte. Nebenbei bemerkt, während ich die Zusammenfassung von SuperBPE gelesen habe, ist mir aufgefallen, dass die raumunabhängige Tokenisierung und andere aktuelle Verbesserungen bis in die Zeit vor den LLMs zurückreichen: