Bardzo wnikliwy post na blogu! Moim zdaniem tokenizacja jest częścią pipeline'ów NLP, która otrzymuje znacznie mniej uwagi, niż powinna. Na marginesie, podczas czytania podsumowania SuperBPE, zdałem sobie sprawę, że tokenizacja niezależna od spacji i inne ostatnie ulepszenia sięgają czasów przed LLM: