Jag gillar verkligen det nya DeepSeek-OCR-pappret. Det är en bra OCR-modell (kanske lite sämre än prickar), och ja datainsamling etc., men det gör ändå inget. Den mer intressanta delen för mig (särskilt som en datorseende i hjärtat som tillfälligt maskerar sig som en person med naturligt språk) är om pixlar är bättre ingångar till LLM:er än text. Om texttoken är slösaktiga och bara hemska, vid indata. Kanske är det mer meningsfullt att alla ingångar till LLM:er bara ska vara bilder. Även om du råkar ha ren textinmatning kanske du föredrar att rendera den och sedan mata in den: - Mer informationskomprimering (se papper) = > kortare kontextfönster, mer effektivitet - Betydligt mer allmän informationsström = > inte bara text, utan t.ex. fet text, färgad text, godtyckliga bilder. - Inmatning kan nu enkelt bearbetas med dubbelriktad uppmärksamhet och som standard, inte autoregressiv uppmärksamhet - mycket kraftfullare. - Ta bort tokenizern (vid ingången)!! Jag har redan rantat om hur mycket jag ogillar tokenizern. Tokenizers är fula, separata, inte från början till slut. Den "importerar" all fulhet i Unicode, byte-kodningar, den ärver en hel del historiskt bagage, säkerhets-/jailbreak-risk (t.ex. fortsättningsbyte). Det gör att två tecken som ser identiska ut med ögat ser ut som två helt olika tokens internt i nätverket. En leende emoji ser ut som en konstig token, inte en... Faktiskt leende ansikte, pixlar och allt, och all överföringsinlärning som det medför. Tokeniseraren måste gå. OCR är bara en av många användbara visuella > textuppgifter. Och text-> textuppgifter kan göras till vision->textuppgifter. Inte tvärtom. Så många användarmeddelanden är bilder, men avkodaren (assistentsvaret) förblir text. Det är mycket mindre uppenbart hur man matar ut pixlar realistiskt ... eller om du vill. Nu måste jag också kämpa mot lusten att sidequesta en version av nanochat som bara är för bildinmatning...