Îmi place destul de mult noua lucrare DeepSeek-OCR. Este un model OCR bun (poate puțin mai rău decât punctele), și da, colectarea de date etc., dar oricum nu contează. Partea mai interesantă pentru mine (mai ales ca viziune computerizată care se deghizează temporar într-o persoană de limbaj natural) este dacă pixelii sunt intrări mai bune pentru LLM-uri decât textul. Dacă jetoanele de text sunt risipitoare și pur și simplu groaznice, la intrare. Poate că are mai mult sens ca toate intrările la LLM-uri să fie doar imagini. Chiar dacă se întâmplă să aveți o intrare de text pur, poate ați prefera să o redați și apoi să o introduceți: - mai multă compresie a informațiilor (vezi lucrarea) = > ferestre de context mai scurte, mai multă eficiență - Flux de informații semnificativ mai general = > nu doar text, ci de exemplu text îngroșat, text colorat, imagini arbitrare. - intrarea poate fi acum procesată cu atenție bidirecțională cu ușurință și implicit, nu cu atenție autoregresivă - mult mai puternică. - ștergeți tokenizatorul (la intrare)!! Am vorbit deja despre cât de mult nu-mi place tokenizatorul. Tokenizatorii sunt urâți, separați, nu de la un capăt la altul. "Importă" toată urâțenia Unicode, codificările de octeți, moștenește o mulțime de bagaje istorice, risc de securitate/jailbreak (de exemplu, octeți de continuare). Face ca două personaje care arată identic cu ochiul să arate ca două jetoane complet diferite intern în rețea. Un emoji zâmbitor arată ca un jeton ciudat, nu un... față zâmbitoare reală, pixeli și toate celelalte, și toată învățarea prin transfer pe care o aduce. Tokenizatorul trebuie să dispară. OCR este doar una dintre multele sarcini utile de > text vizual. Iar sarcinile text > text pot fi transformate în sarcini de viziune >text. Nu invers. Atât de multe mesaje de utilizator sunt imagini, dar decodorul (răspunsul Asistentului) rămâne text. Este mult mai puțin evident cum să scoateți pixelii în mod realist... sau dacă doriți. Acum trebuie să mă lupt și cu dorința de a căuta o versiune a nanochat-ului doar cu intrare de imagine...