J'aime beaucoup le nouveau papier DeepSeek-OCR. C'est un bon modèle OCR (peut-être un peu moins bon que dots), et oui, la collecte de données, etc., mais de toute façon, cela n'a pas d'importance. La partie qui m'intéresse le plus (surtout en tant que passionné de vision par ordinateur qui se fait temporairement passer pour une personne de traitement du langage naturel) est de savoir si les pixels sont de meilleurs inputs pour les LLM que le texte. Si les tokens de texte sont gaspillés et juste terribles, à l'entrée. Peut-être qu'il est plus logique que tous les inputs aux LLM ne devraient être que des images. Même si vous avez un input de texte pur, peut-être que vous préféreriez le rendre et ensuite l'alimenter : - compression d'information plus importante (voir le papier) => fenêtres de contexte plus courtes, plus d'efficacité - flux d'information général significativement plus important => pas seulement du texte, mais par exemple du texte en gras, du texte coloré, des images arbitraires. - l'input peut maintenant être traité avec une attention bidirectionnelle facilement et par défaut, pas d'attention autoregressive - beaucoup plus puissant. - supprimer le tokenizer (à l'entrée) !! J'ai déjà râlé sur combien je n'aime pas le tokenizer. Les tokenizers sont laids, séparés, pas une étape de bout en bout. Il "importe" toute la laideur de l'Unicode, des encodages de bytes, il hérite d'un lourd bagage historique, risque de sécurité/jailbreak (par exemple, les bytes de continuation). Il fait en sorte que deux caractères qui semblent identiques à l'œil apparaissent comme deux tokens complètement différents en interne dans le réseau. Un emoji souriant ressemble à un token étrange, pas à un... véritable visage souriant, pixels et tout, et tout l'apprentissage par transfert que cela implique. Le tokenizer doit disparaître. L'OCR n'est qu'une des nombreuses tâches utiles de vision -> texte. Et les tâches texte -> texte peuvent être transformées en tâches vision -> texte. Pas l'inverse. Donc, beaucoup de messages utilisateurs sont des images, mais le décodeur (la réponse de l'Assistant) reste du texte. C'est beaucoup moins évident comment sortir des pixels de manière réaliste... ou si vous le voudriez. Maintenant, je dois aussi lutter contre l'envie de faire un version de nanochat uniquement avec input d'image...