Дуже прониклива публікація в блозі! Токенізація IMO є частиною конвеєрів NLP, якій приділяється набагато менше уваги, ніж мала б До речі, читаючи резюме SuperBPE, я зрозумів, що космічно-незалежна токенізація та інші нещодавні вдосконалення сягають корінням у часи, що передували LLM: