Очень познавательная статья в блоге! На мой взгляд, токенизация является частью NLP-пайплайнов, которая получает гораздо меньше внимания, чем должна. Кстати, читая резюме SuperBPE, я осознал, что токенизация, не зависящая от пробелов, и другие недавние улучшения восходят к временам до LLM: