私は新しいDeepSeek-OCR論文がとても気に入っています。これは優れたOCRモデルであり(ドットよりも少し悪いかもしれません)、データ収集などもありますが、とにかくそれは問題ではありません。 私にとってより興味深い部分(特に、一時的に自然言語の人になりすます、根っからのコンピュータービジョンとして)は、ピクセルがテキストよりもLLMへのより良い入力であるかどうかです。テキストトークンが無駄でひどいものであるかどうかは、入力で。 LLM へのすべての入力は画像のみであるべきであるという方が理にかなっているかもしれません。たまたま純粋なテキスト入力がある場合でも、それをレンダリングしてからフィードしたいと思うかもしれません。 - より多くの情報圧縮 (論文を参照) = > コンテキストウィンドウが短くなり、効率が向上します - より一般的な情報ストリーム=>テキストだけでなく、太字のテキスト、色付きのテキスト、任意の画像など。 - 入力は、自己回帰アテンションではなく、デフォルトで双方向のアテンションで簡単に処理できるようになりました。 - トークナイザーを削除(入力時)!!私はすでにトークナイザーがどれほど嫌いかについて暴言を吐いていました。トークナイザーは醜く、別個であり、エンドツーエンドの段階ではありません。Unicode、バイトエンコーディングのすべての醜さを「インポート」し、多くの歴史的荷物、セキュリティ/脱獄リスク(継続バイトなど)を継承します。目と同じように見える 2 つのキャラクターを、ネットワーク内部では 2 つのまったく異なるトークンとして見せます。笑顔の絵文字は奇妙なトークンのように見えますが、...実際の笑顔、ピクセルなど、そしてそれに伴う転移学習のすべて。トークナイザーは行かなければなりません。 OCRは、多くの便利なビジョン>テキストタスクの1つにすぎません。また、テキスト > テキスト タスクは、ビジョン >テキスト タスクにすることができます。その逆はできません。 ユーザーメッセージの多くは画像ですが、デコーダー(アシスタントの応答)はテキストのままです。ピクセルをリアルに出力する方法は、あまり明らかではありません...または、必要に応じて。 今、私はまた、画像入力のみのバージョンのnanochatをサイドクエストしたいという衝動と戦わなければなりません...