Postagem de blog muito perspicaz! A tokenização IMO é uma parte dos pipelines de PNL que recebe muito menos atenção do que deveria Como um aparte, ao ler o resumo do SuperBPE, percebi que a tokenização independente de espaço e outras melhorias recentes remontam aos tempos pré-LLM: