Postingan blog yang sangat berwawasan luas! Tokenisasi IMO adalah bagian dari pipeline NLP yang menerima perhatian yang jauh lebih sedikit daripada yang seharusnya Selain itu, saat membaca ringkasan SuperBPE, saya menyadari bahwa tokenisasi agnostik ruang dan peningkatan terbaru lainnya kembali ke zaman pra-LLM: