¡Publicación de blog muy perspicaz! La tokenización de la OMI es una parte de los canales de NLP que recibe mucha menos atención de la que debería Como nota al margen, mientras leía el resumen de SuperBPE, me di cuenta de que la tokenización independiente del espacio y otras mejoras recientes se remontan a los tiempos anteriores a LLM: