Me gusta bastante el nuevo artículo de DeepSeek-OCR. Es un buen modelo de OCR (tal vez un poco peor que los puntos), y sí, recopilación de datos, etc., pero de todos modos no importa. La parte más interesante para mí (especialmente como un visionario por computadora de corazón que se hace pasar temporalmente por una persona de lenguaje natural) es si los píxeles son mejores entradas para los LLM que el texto. Si los tokens de texto son un desperdicio y simplemente terribles, en la entrada. Tal vez tenga más sentido que todas las entradas a los LLM solo sean imágenes. Incluso si tiene una entrada de texto puro, tal vez prefiera renderizarlo y luego introducirlo: - más compresión de información (ver artículo) = > ventanas de contexto más cortas, más eficiencia - flujo de información significativamente más general => no solo texto, sino, por ejemplo, texto en negrita, texto en color, imágenes arbitrarias. - La entrada ahora se puede procesar con atención bidireccional fácilmente y de forma predeterminada, no con atención autorregresiva, mucho más poderosa. - ¡¡Elimina el tokenizador (en la entrada)!! Ya me quejé de lo mucho que me disgusta el tokenizador. Los tokenizadores son feos, separados, no una etapa de extremo a extremo. "Importa" toda la fealdad de Unicode, codificaciones de bytes, hereda una gran cantidad de equipaje histórico, riesgo de seguridad / jailbreak (por ejemplo, bytes de continuación). Hace que dos caracteres que se ven idénticos al ojo se vean como dos tokens completamente diferentes internamente en la red. Un emoji sonriente parece una ficha extraña, no un... cara sonriente real, píxeles y todo, y todo el aprendizaje de transferencia que conlleva. El tokenizador debe desaparecer. OCR es solo una de las muchas tareas útiles de visión > texto. Y las tareas de texto > texto se pueden convertir en tareas de visión >texto. No al revés. Tantos que el mensaje del usuario son imágenes, pero el decodificador (la respuesta del Asistente) sigue siendo texto. Es mucho menos obvio cómo generar píxeles de manera realista ... o si quieres. Ahora también tengo que luchar contra el impulso de realizar una misión secundaria de una versión de nanochat de solo entrada de imágenes ...