Blogue muito perspicaz! Na minha opinião, a tokenização é uma parte dos pipelines de PNL que recebe muito menos atenção do que deveria A título de curiosidade, enquanto lia o resumo do SuperBPE, percebi que a tokenização independente de espaço e outras melhorias recentes remontam a tempos anteriores aos LLMs: