Docela se mi líbí nový článek DeepSeek-OCR. Je to dobrý OCR model (možná o něco horší než tečky) a ano, sběr dat atd., ale stejně na tom nezáleží. Zajímavější částí pro mě (zejména jako počítačový vision v srdci, který se dočasně maskuje jako osoba v přirozeném jazyce) je, zda jsou pixely lepšími vstupy do LLM než text. Zda jsou textové tokeny nehospodárné a prostě hrozné, na vstupu. Možná by dávalo větší smysl, aby všechny vstupy do LLM byly vždy pouze obrázky. I když máte náhodou čistě textový vstup, možná byste ho raději vykreslili a pak ho vložili: - více informací komprese (viz článek) = > kratší kontextová okna, větší efektivita - výrazně obecnější informační tok = > nejen text, ale např. tučný text, barevný text, libovolné obrázky. - vstup lze nyní snadno a standardně zpracovávat obousměrnou pozorností, nikoli autoregresivní pozorností - mnohem výkonnější. - smazat tokenizer (na vstupu)!! Už jsem se rozplýval nad tím, jak moc se mi tokenizér nelíbí. Tokenizátory jsou ošklivé, oddělené, ne end-to-end fáze. "Importuje" veškerou ošklivost Unicode, bajtové kódování, dědí spoustu historického balastu, rizika bezpečnosti/jailbreaku (např. pokračovací bajty). Díky tomu vypadají dva znaky, které vypadají stejně jako oko a interně v síti jako dva zcela odlišné tokeny. Usmívající se emotikon vypadá jako podivný token, ne jako ... skutečný usměvavý obličej, pixely a tak dále, a všechno to přenosové učení, které to přináší. Tokenizátor musí jít. OCR je jen jednou z mnoha užitečných textových úloh zaměřených na zrakové >. A textové > textové úlohy lze změnit na úlohy s vizí >textem. Ne naopak. Mnoho zpráv uživatele jsou obrázky, ale dekodér (odpověď asistenta) zůstává textem. Je mnohem méně zřejmé, jak realisticky vystupovat pixely... nebo jestli byste chtěli. Teď musím také bojovat s nutkáním vedlejší úkol vytvořit verzi nanochatu, která obsahuje pouze obrazový vstup...