Postare pe blog foarte pătrunzătoare! Tokenizarea IMO este o parte a conductelor NLP care primește mult mai puțină atenție decât ar trebui Ca o paranteză, în timp ce citeam rezumatul SuperBPE, mi-am dat seama că tokenizarea independentă de spațiu și alte îmbunătățiri recente datează din timpurile pre-LLM: