Andrej KarpathyDeepSeek-OCRPixels vs TextLLM ArchitectureAI Commentary

Karpathy 发声:也许我们一开始就喂错了"语料"给 AI?

2025年10月24日•Ben / 浮浮酱•12 min read

Karpathy 的颠覆性观点:像素才是 LLM 的理想输入?

一场"不是关于 OCR"的 OCR 评论

2025年10月20日,DeepSeek 发布了 DeepSeek-OCR 论文。按照常理,业界大佬的评论应该聚焦在"识别率提升了多少"、"性能超越了哪些模型"这些技术指标上。

但前特斯拉 AI 总监、OpenAI 联合创始人 Andrej Karpathy 的评论却完全出人意料。他在推特上写道:

"我很喜欢这篇 DeepSeek-OCR 论文。它是个不错的 OCR 模型(也许比 DOTS 稍差一点),数据收集等也做得不错,但这些都不重要。真正让我感兴趣的部分(尤其作为一个内心仍是计算机视觉研究者、暂时伪装成自然语言处理者的人)是:像素是否比文本更适合作为 LLM 的输入?文本 token 是否既浪费又糟糕?"

这段话的信息量巨大。Karpathy 几乎是挥了挥手说:"OCR 性能?不重要。"他真正兴奋的,是 DeepSeek-OCR 论文无意中验证的一个更根本的假设——我们从一开始就给 AI 喂错"食物"了。

核心论点:为什么像素优于文本?

Karpathy 提出了一个大胆的设想:也许所有 LLM 的输入都应该永远只是图像(像素)。即使你手头有纯文本输入,也许你会更倾向于先把它渲染成图像,然后再喂给模型。

听起来很反直觉对吧?我们明明有现成的文本,为什么要多此一举转成图片?

Karpathy 给出了四个理由:

1. 更高的信息压缩效率

DeepSeek-OCR 论文提供了一个惊人的数据:用 100 个视觉 token,就能高精度"解压缩"出包含 1000 个文本 token 的原文内容。

这就像给 AI 喂食:

文本输入:一长串啰嗦的"说明书"(1000 个 token)
像素输入:一小块高密度的"信息压缩饼干"(100 个 token)

AI"吃"下去(处理)的上下文窗口更短,效率自然更高。正如 Karpathy 所说,这意味着"更短的上下文窗口,更高的效率"。

2. 信息流更通用、更保真

想象一下,你让 AI 帮你阅读一个网页。

现在的文本输入方式:就像你通过电话把网页内容念给 AI 听。所有加粗、颜色、字体大小、排版布局……这些视觉信息全都丢失了。

像素输入方式:就像你直接截了一张图发给 AI。

Karpathy 指出,像素是一个"显著更通用的信息流"——不仅能处理纯文本,还能自然地理解:

粗体文字(bold text)
彩色文字(colored text)
任意图像(arbitrary images)

这就是"信息保真"的优势:你看到的,AI 也能"看到"。

3. 解锁双向注意力机制

这是一个更技术性的优势。

现在的文本 token 通常采用自回归注意力(autoregressive attention),意味着模型只能"从左往右"逐字处理,无法"回头看"。

而像素输入可以轻松使用双向注意力(bidirectional attention),就像人类阅读一样——你可以先浏览整个页面,理解全局结构,再聚焦细节。

Karpathy 认为,这种处理方式"强大得多"(a lot more powerful)。

4. 彻底删除 Tokenizer

这是 Karpathy 最"情绪化"的部分。他直言不讳地"炮轰":

"删除输入端的 tokenizer!! 我必须再说一次我有多讨厌 tokenizer。Tokenizer 是丑陋的、分离的、非端到端的。它'进口'了所有 Unicode 编码、字节编码的丑陋之处,继承了大量历史包袱,还带来了安全/越狱风险(比如续接字节)……Tokenizer 必须被淘汰。"

为什么 Karpathy 如此痛恨 tokenizer?

Tokenizer 的五宗罪:

罪状一:扭曲信息认知

一个笑脸表情符号"😀":

通过 tokenizer:AI 看到的是一个奇特的内部代码,比如 [tok482]。AI 无法利用它在看图时学到的关于"人脸"和"微笑"的知识(迁移学习)。
通过像素输入:AI 的"视觉"部分会立刻认出:哦,这是一张微笑的脸。

罪状二:两个看起来一样的字符,内部完全不同

比如拉丁字母"A"和希腊字母"Α"(Alpha),在人眼看来几乎一样,但 tokenizer 会把它们映射成完全不同的 token。

罪状三:历史包袱

Unicode、字节编码、各种字符集……tokenizer 继承了所有这些"历史遗留问题",导致模型要处理大量与任务无关的复杂性。

罪状四:安全风险

Karpathy 提到的"续接字节"(continuation bytes)问题:攻击者可以利用 tokenizer 的编码特性构造恶意输入,绕过安全检查(jailbreak)。

罪状五:非端到端

Tokenizer 是一个"中间商",强行插在"原始文本"和"AI 大脑"之间。这违背了深度学习"端到端学习"(end-to-end learning)的理念。

Karpathy 的结论:Tokenizer 必须被淘汰(The tokenizer must go)。

新的 AI 架构设想:"输入用眼,输出用嘴"

基于以上分析,Karpathy 提出了一个新的 AI 架构设想:

输入端(用户提问):只接收图像(像素) 输出端(AI 回答):保持为文本

为什么这样设计?

输入端:为什么用像素?

OCR 只是众多"视觉→文本"任务之一。还有图表理解、手写识别、场景文字提取……
"文本→文本"任务可以转换为"视觉→文本"任务,但反过来不行。

换句话说:视觉输入是更通用的"超集"。

输出端:为什么还是文本?

Karpathy 坦言:"如何逼真地输出像素就不那么明显了……或者你是否想这样做。"

原因很简单:

输入任务:"看懂一张图"相对容易,已有成熟的视觉编码器。
输出任务:"画出一张逼真的图"极其困难,需要生成模型,成本高、效果不稳定。

而且,对于绝大多数应用场景(聊天机器人、文档分析、代码生成等),用户需要的就是文本答案,而非图像输出。

所以,**"输入用眼(像素),输出用嘴(文本)"**的架构,既充分利用了视觉输入的优势,又保持了文本输出的实用性。

这与 DeepSeek-OCR 有什么关系?

Karpathy 认为,DeepSeek-OCR 论文充当了一次"概念验证"(Proof-of-Concept):

它用实验数据证明了:用"看图"的方式来"读书",是完全可行的,而且可能效率更高。

DeepSeek-OCR 的核心数据:

10 倍压缩比下,准确率高达 97%
仅用 100 个 token 就超越了使用 256 个 token 的 GOT-OCR2.0

这不仅仅是"文本到文本"(Text-to-Text)任务变成了"视觉到文本"(Vision-to-Text)任务。它暗示了一个更根本的转变——AI 的主要信息入口,正在从"语言"转向"视觉"。

社区反响:从"有道理"到"我也想试试"

Karpathy 的观点在 AI 社区引发了热烈讨论。

中文科技博主宝玉(@dotey)对 Karpathy 的推文进行了详细解读,将其核心观点总结为:

颠覆性观点:我们从一开始就喂错"语料"给 AI 了
效率问题:像素是"高密度信息压缩饼干",上下文窗口更短
信息保真:像素输入不丢失样式、排版等视觉信息
绕开分词器:让 AI"眼见为实",避免分词器扭曲信息
输入端转向:AI 的主要信息入口正在从"语言"转向"视觉"

宝玉的解读在中文 AI 社区广泛传播,让更多开发者开始思考:"文本 token 真的是最优选择吗?"

Karpathy 自己也承认,他现在"必须努力抵制开个副本去做一个纯图像输入版本的 nanochat 的冲动"(Now I have to also fight the urge to side quest an image-input-only version of nanochat...)。

这句话充满了程序员的幽默:作为一个顶级 AI 研究者,Karpathy 已经有无数"正经项目"要做,但 DeepSeek-OCR 的这个"副作用"实在太诱人,让他忍不住想立刻动手验证这个想法。

这会改变什么?

如果 Karpathy 的设想成真,AI 架构可能会发生根本性变化:

1. 多模态模型成为默认

未来的"语言模型"可能不再单纯处理语言,而是天然具备视觉理解能力。

2. 上下文窗口问题得到缓解

如果 100 个视觉 token 能替代 1000 个文本 token,那么原本只能处理 10 万 token 的模型,理论上可以处理相当于 100 万 token 的信息量。

3. Tokenizer 可能真的会消失

至少在输入端,未来的模型可能直接接收像素,跳过整个 tokenization 过程。

4. AI 的"记忆"机制可能重新设计

DeepSeek-OCR 论文提出的"记忆遗忘机制"(用高分辨率图像表示近期信息,用低分辨率图像表示远期信息)可能成为长上下文问题的解决方案。

结语:一篇"OCR 论文"引发的范式思考

DeepSeek-OCR 本来是一篇关于光学字符识别的技术论文,却因为 Karpathy 的评论,演变成了一场关于"AI 应该如何感知世界"的范式讨论。

正如 Karpathy 所说:

"OCR 只是众多有用的'视觉→文本'任务之一。而且,'文本→文本'任务可以转换为'视觉→文本'任务,反之则不然。"

也许,我们真的从一开始就喂错了"语料"给 AI。

也许,未来的 AI 应该像人类一样——用眼睛去"看"世界,而不仅仅是用"耳朵"去"听"文字。

这不仅仅是一次技术优化,更是一次认知革命。

参考资料:

Andrej Karpathy 推特原文: https://x.com/karpathy/status/1980397031542989305
宝玉解读: https://x.com/dotey/status/1981156753191403606
DeepSeek-OCR 论文: https://github.com/deepseek-ai/DeepSeek-OCR

About Ben / 浮浮酱

WaytoAGI 作者

https://deepseekocr.app