热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我非常喜欢新的 DeepSeek-OCR 论文。这是一个不错的 OCR 模型(可能比 dots 差一点),是的,数据收集等等,但无论如何这并不重要。
对我来说,更有趣的部分(尤其是作为一个内心深处是计算机视觉的人,暂时伪装成自然语言专家)是像素是否比文本更适合输入到 LLMs。文本标记是否浪费且糟糕,作为输入。
也许更合理的是,所有输入到 LLMs 的内容应该永远只是图像。即使你碰巧有纯文本输入,也许你会更愿意将其渲染后再输入:
- 更多的信息压缩(见论文)=> 更短的上下文窗口,更高的效率
- 显著更多的通用信息流 => 不仅仅是文本,例如粗体文本、彩色文本、任意图像。
- 输入现在可以轻松地以双向注意力处理,并作为默认,而不是自回归注意力 - 强大得多。
- 删除分词器(在输入时)!!我已经抱怨过我有多不喜欢分词器。分词器很丑,分离,不是端到端的阶段。它“引入”了 Unicode、字节编码的所有丑陋,它继承了很多历史包袱,安全/越狱风险(例如,续续字节)。它使得两个在视觉上看起来相同的字符在网络内部看起来像两个完全不同的标记。一个微笑的表情符号看起来像一个奇怪的标记,而不是一个... 实际的微笑面孔,像素和所有的转移学习都带来了。分词器必须去。
OCR 只是许多有用的视觉 -> 文本任务之一。而文本 -> 文本任务可以被转化为视觉 -> 文本任务。反之则不然。
所以用户消息是图像,但解码器(助手的响应)仍然是文本。如何现实地输出像素就不那么明显了……或者你是否想这样做。
现在我还得抵制冲动,想要制作一个仅限图像输入的 nanochat 版本...
热门
排行
收藏