我相當喜歡新的 DeepSeek-OCR 論文。這是一個不錯的 OCR 模型(可能比 dots 差一些),是的,數據收集等等,但無論如何這都不重要。 對我來說,更有趣的部分(尤其是作為一名電腦視覺專家,暫時偽裝成自然語言專家)是像素是否比文本更適合作為 LLM 的輸入。文本標記是否浪費且糟糕,作為輸入。 也許更合理的是,所有 LLM 的輸入應該永遠只有圖像。即使你碰巧有純文本輸入,也許你會更喜歡將其渲染後再輸入: - 更多的信息壓縮(見論文)=> 更短的上下文窗口,更高的效率 - 顯著更多的一般信息流 => 不僅僅是文本,例如粗體文本、彩色文本、任意圖像。 - 輸入現在可以輕鬆地以雙向注意力處理,並作為默認,而不是自回歸注意力 - 強大得多。 - 刪除標記器(在輸入時)!!我已經抱怨過我有多不喜歡標記器。標記器很醜,分開,並不是端到端的階段。它 "導入" 了所有 Unicode、字節編碼的醜陋,繼承了很多歷史包袱,安全/越獄風險(例如,續字節)。它使兩個在眼睛上看起來相同的字符在網絡內部看起來像兩個完全不同的標記。一個微笑的表情符號看起來像一個奇怪的標記,而不是一個... 實際的微笑臉,像素和所有的轉移學習都隨之而來。標記器必須去。 OCR 只是許多有用的視覺 -> 文本任務之一。而文本 -> 文本任務可以被轉化為視覺 -> 文本任務。反之則不然。 所以用戶消息可能是圖像,但解碼器(助手的回應)仍然是文本。如何現實地輸出像素就不那麼明顯了... 或者你是否想這樣做。 現在我還得抵抗想要側重於僅圖像輸入版本的 nanochat 的衝動...