Blog post molto interessante! A mio avviso, la tokenizzazione è una parte delle pipeline NLP che riceve molta meno attenzione di quanto dovrebbe A proposito, mentre leggevo il riassunto di SuperBPE, mi sono reso conto che la tokenizzazione agnostica allo spazio e altri recenti miglioramenti risalgono a tempi precedenti agli LLM: