Me gusta bastante el nuevo artículo de DeepSeek-OCR. Es un buen modelo de OCR (quizás un poco peor que dots), y sí, la recolección de datos, etc., pero de todos modos no importa. La parte más interesante para mí (especialmente como alguien que es un apasionado de la visión por computadora y que temporalmente se disfraza de persona de lenguaje natural) es si los píxeles son mejores entradas para los LLMs que el texto. Si los tokens de texto son derrochadores y simplemente terribles, en la entrada. Quizás tenga más sentido que todas las entradas a los LLMs deberían ser solo imágenes. Incluso si tienes una entrada de texto puro, tal vez preferirías renderizarla y luego alimentarla: - más compresión de información (ver artículo) => ventanas de contexto más cortas, más eficiencia - flujo de información general significativamente mayor => no solo texto, sino por ejemplo texto en negrita, texto de color, imágenes arbitrarias. - la entrada ahora puede ser procesada con atención bidireccional fácilmente y como predeterminado, no atención autorregresiva - mucho más poderosa. - ¡eliminar el tokenizador (en la entrada)!! Ya he expresado cuánto desagrado tengo por el tokenizador. Los tokenizadores son feos, separados, no son una etapa de extremo a extremo. "Importa" toda la fealdad de Unicode, codificaciones de bytes, hereda mucho equipaje histórico, riesgo de seguridad/escape (por ejemplo, bytes de continuación). Hace que dos caracteres que parecen idénticos a la vista se vean como dos tokens completamente diferentes internamente en la red. Un emoji sonriente se ve como un token extraño, no como una... cara sonriente real, píxeles y todo, y todo el aprendizaje por transferencia que conlleva. El tokenizador debe irse. El OCR es solo una de muchas tareas útiles de visión -> texto. Y las tareas de texto -> texto pueden hacerse para ser tareas de visión -> texto. No al revés. Así que muchos mensajes de usuario son imágenes, pero el decodificador (la respuesta del asistente) sigue siendo texto. Es mucho menos obvio cómo outputear píxeles de manera realista... o si querrías hacerlo. Ahora también tengo que luchar contra la urgencia de desviar a una versión de nanochat solo de entrada de imagen...