DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Andrej Karpathy

Bâtiment @EurekaLabsAI. Précédemment directeur de l’IA @ Tesla, équipe fondatrice @ OpenAI, CS231n/PhD @ Stanford. J’aime entraîner de grands réseaux neuronaux profonds.

J'aime beaucoup le nouveau papier DeepSeek-OCR. C'est un bon modèle OCR (peut-être un peu moins bon que dots), et oui, la collecte de données, etc., mais de toute façon, cela n'a pas d'importance. La partie qui m'intéresse le plus (surtout en tant que passionné de vision par ordinateur qui se fait temporairement passer pour une personne de traitement du langage naturel) est de savoir si les pixels sont de meilleurs inputs pour les LLM que le texte. Si les tokens de texte sont gaspillés et juste terribles, à l'entrée. Peut-être qu'il est plus logique que tous les inputs aux LLM ne devraient être que des images. Même si vous avez un input de texte pur, peut-être que vous préféreriez le rendre et ensuite l'alimenter : - compression d'information plus importante (voir le papier) => fenêtres de contexte plus courtes, plus d'efficacité - flux d'information général significativement plus important => pas seulement du texte, mais par exemple du texte en gras, du texte coloré, des images arbitraires. - l'input peut maintenant être traité avec une attention bidirectionnelle facilement et par défaut, pas d'attention autoregressive - beaucoup plus puissant. - supprimer le tokenizer (à l'entrée) !! J'ai déjà râlé sur combien je n'aime pas le tokenizer. Les tokenizers sont laids, séparés, pas une étape de bout en bout. Il "importe" toute la laideur de l'Unicode, des encodages de bytes, il hérite d'un lourd bagage historique, risque de sécurité/jailbreak (par exemple, les bytes de continuation). Il fait en sorte que deux caractères qui semblent identiques à l'œil apparaissent comme deux tokens complètement différents en interne dans le réseau. Un emoji souriant ressemble à un token étrange, pas à un... véritable visage souriant, pixels et tout, et tout l'apprentissage par transfert que cela implique. Le tokenizer doit disparaître. L'OCR n'est qu'une des nombreuses tâches utiles de vision -> texte. Et les tâches texte -> texte peuvent être transformées en tâches vision -> texte. Pas l'inverse. Donc, beaucoup de messages utilisateurs sont des images, mais le décodeur (la réponse de l'Assistant) reste du texte. C'est beaucoup moins évident comment sortir des pixels de manière réaliste... ou si vous le voudriez. Maintenant, je dois aussi lutter contre l'envie de faire un version de nanochat uniquement avec input d'image...

Beau post court illustrant à quel point la diffusion de texte simple (discrète) peut l'être. La diffusion (c'est-à-dire le débruitage parallèle itéré, top) est le paradigme génératif omniprésent dans l'image/vidéo, mais l'autoregression (c'est-à-dire aller de gauche à droite en bas) est le paradigme dominant dans le texte. Pour l'audio, j'ai vu un peu des deux. Beaucoup de papiers sur la diffusion semblent un peu denses, mais si vous dépouillez le formalisme mathématique, vous vous retrouvez avec des algorithmes de base simples, par exemple quelque chose de beaucoup plus proche de l'appariement de flux en continu, ou quelque chose comme ça en discret. C'est votre transformateur classique mais avec une attention bidirectionnelle, où vous rééchantillonnez et remasquez itérativement tous les tokens dans votre "toile de tokens" en fonction d'un calendrier de bruit jusqu'à obtenir l'échantillon final à la dernière étape. (L'attention bidirectionnelle est beaucoup plus puissante, et vous obtenez des modèles de langage autoregressifs beaucoup plus forts si vous vous entraînez avec, malheureusement cela rend l'entraînement beaucoup plus coûteux car maintenant vous ne pouvez pas paralléliser à travers la dimension de séquence). Donc, l'autoregression fait un `.append(token)` à la toile de tokens tout en n'assistant qu'en arrière, tandis que la diffusion rafraîchit l'ensemble de la toile de tokens avec un `.setitem(idx, token)` tout en assistant de manière bidirectionnelle. La pensée humaine semble naïvement un peu plus comme l'autoregression, mais il est difficile de dire qu'il n'y a pas plus de composants semblables à la diffusion dans un certain espace latent de pensée. Il semble tout à fait possible que vous puissiez encore interpoler entre eux, ou les généraliser davantage. Et c'est un composant de la pile LLM qui semble encore un peu fongible. Maintenant, je dois résister à l'envie de m'égarer dans l'entraînement de nanochat avec la diffusion.

Meilleurs

Classement

Favoris