DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Andrej Karpathy

Gebouw @EurekaLabsAI. Voorheen directeur van AI @ Tesla, oprichtend team @ OpenAI, CS231n/PhD @ Stanford. Ik vind het leuk om grote diepe neurale netwerken te trainen.

Ik vind het nieuwe DeepSeek-OCR-paper best leuk. Het is een goed OCR-model (misschien iets slechter dan dots), en ja, dataverzameling enzovoort, maar het maakt niet uit. Het interessantste deel voor mij (vooral als iemand die van nature een computer vision persoon is en tijdelijk zich voordoet als een taalpersoon) is of pixels betere inputs voor LLM's zijn dan tekst. Of teksttokens verspilling zijn en gewoon verschrikkelijk, als input. Misschien is het logischer dat alle inputs voor LLM's alleen maar afbeeldingen zouden moeten zijn. Zelfs als je toevallig pure tekstinput hebt, misschien geef je er de voorkeur aan om het weer te geven en dat dan in te voeren: - meer informatiecompressie (zie paper) => kortere contextvensters, meer efficiëntie - aanzienlijk meer algemene informatiestroom => niet alleen tekst, maar bijvoorbeeld vetgedrukte tekst, gekleurde tekst, willekeurige afbeeldingen. - input kan nu gemakkelijk en standaard met bidirectionele aandacht worden verwerkt, niet autoregressieve aandacht - veel krachtiger. - verwijder de tokenizer (bij de input)!! Ik heb al geklaagd over hoezeer ik de tokenizer niet leuk vind. Tokenizers zijn lelijk, apart, geen end-to-end fase. Het "importeert" al het lelijke van Unicode, byte-encoderingen, het erft veel historische bagage, beveiligings-/jailbreakrisico (bijv. voortgangsbytes). Het maakt van twee karakters die identiek lijken voor het oog, twee volkomen verschillende tokens intern in het netwerk. Een glimlachende emoji lijkt op een vreemd token, niet op een... echte glimlachende gezicht, pixels en al, en al het transferleren dat daarbij komt. De tokenizer moet weg. OCR is slechts een van de vele nuttige vision -> teksttaken. En tekst -> teksttaken kunnen worden omgevormd tot vision -> teksttaken. Niet omgekeerd. Dus veel de gebruikersboodschap is afbeeldingen, maar de decoder (de assistentrespons) blijft tekst. Het is veel minder voor de hand liggend hoe je pixels realistisch kunt outputten... of je dat zou willen. Nu moet ik ook de neiging bestrijden om een zijpad te nemen naar een alleen-afbeelding-input versie van nanochat...

Boven

Positie

Favorieten