Advertisement
DeepSeekInformation TheoryVisual CompressionAI Architecture

1个视觉Token抵得上10个文本Token:DeepSeek-OCR的信息论启示

2025年10月20日金色传说大聪明10 min read

文字,是信息压缩的最好方式吗?

这是一个看似简单,实则深刻的问题。直到DeepSeek开源了DeepSeek-OCR,我们才有了数据支撑的答案:视觉token可以比文本token更高效

从信息论角度理解视觉压缩

在Hacker News上,DeepSeek-OCR引发了激烈讨论。其中一个高赞回答道出了关键:

文本token是离散的查找表

  • 有个小整数(token ID)→ 查表得到一个向量
  • token空间有限,通常就10万个可能的token
  • 每个token对应一小段UTF-8字节
  • 大多数分词器不会创建跨越词边界的token

视觉token是连续值向量

  • 没有查找表,直接从图像编码成向量
  • token空间巨大:高维浮点数向量,每个维度可以取很多值
  • 能传达更多的bits per token

这就是为什么DeepSeek-OCR能实现10倍压缩的关键原因。

DeepEncoder:巧妙的三段式架构

DeepSeek-OCR的核心是一个叫DeepEncoder的架构,参数量仅380M,但设计非常讲究:

第一段:低激活局部处理

  • 80M的SAM-base + 窗口注意力机制
  • 对1024×1024图像,生成4096个patch token
  • 激活内存消耗可控

第二段:16倍压缩

  • 2层卷积模块,16×下采样
  • 4096个token → 256个token
  • 进入全局注意力前大幅减少计算量

第三段:全局语义理解

  • 300M的CLIP-large + 全局注意力
  • 深度理解这256个压缩后的token
  • 由于输入token数量已大幅减少,计算开销可接受

这种设计的巧妙之处在于:

  • 大部分VLM的激活参数动辄72B-76B
  • DeepSeek-OCR的解码器虽是3B参数,但激活参数只有570M
  • MOE架构每次只激活一部分专家,显存占用小、速度快

多分辨率统一:从Tiny到Gundam

DeepSeek-OCR设计了6种模式,支持多种分辨率:

模式分辨率Token数适用场景
Tiny512×51264幻灯片、简单文档
Small640×640100一般文档
Base1024×1024256复杂文档
Large1280×1280400高质量文档
Gundam动态分块800+报纸、超高分辨率

这种设计让同一个模型可以根据文档复杂度选择合适的"压缩强度"。

压缩比与准确率的平衡

DeepSeek在Fox基准集上的实验数据展示了压缩的边界:

10倍压缩比

  • 准确率约97%
  • 对大多数文档已经足够
  • 这是一个甜蜜点(sweet spot)

20倍压缩比

  • 准确率仍可维持在**60%**左右
  • 性能下降可能因为:
    • 长文档布局更复杂
    • 低分辨率下文本出现模糊

第二个问题其实可以看作一种**"遗忘机制"(forgetting mechanism)**的自然表现——这为后续的长上下文应用埋下了伏笔。

OCR 2.0:不只是识别文字

DeepSeek-OCR不止能识别文字,还能"深度解析"文档内容:

图表转换

  • 金融报告里的图表 → 结构化数据
  • 支持柱状图、折线图、饼图等多种图表类型

化学分子式

  • 化学文档里的结构式 → SMILES格式
  • 对科研领域极其关键

几何图形

  • 简单几何图形的识别和转换
  • 教育领域的应用潜力

多语言支持

  • 处理近100种语言的PDF文档
  • 不仅常见语言表现出色,稀有语言也能应对

最有想象力的部分:记忆遗忘机制

论文最后提出了一个非常酷的设想:用降低图像分辨率来模拟人类的记忆遗忘

人类记忆有个特点:越久远的事情,记得越模糊。DeepSeek-OCR提出可以用分辨率来模拟这种衰减:

  • 一小时前的事:还很清晰 → Gundam模式(800+ tokens)
  • 一周前的事:已经很模糊 → Base模式(256 tokens)
  • 一年前的事:几乎忘光了 → Tiny模式(64 tokens)

这个类比特别有意思:

  • 最近的对话用高分辨率
  • 更早的对话逐渐降低分辨率
  • 既保留了历史信息,又控制了token数量
  • 远期记忆自然"淡化",就像人类遗忘一样

如果这条路真的走通了,就能实现"理论上无限的context window"。

开源精神与社区反响

整个项目采用MIT许可证开源:

发布后GitHub迅速获得3.3K+ stars,成为Hacker News热点话题。社区讨论的焦点不仅是技术实现,更多是对"视觉作为信息压缩媒介"这一范式的深度思考。

结语:回到最初的问题

回到开头的问题:文字,是信息压缩的最好方式吗?

DeepSeek-OCR用数据给出了答案:不一定

从信息论角度看:

  • 视觉token能传达更多的bits per token
  • 图像是二维的,文字是一维的
  • 视觉token在语义空间工作,文本token只是子词切片

从生物进化角度看:

  • 视觉是人类处理信息最重要的手段
  • 在文字诞生之前的几十万年里,我们祖先靠看来生存
  • 埃及象形文字、敦煌壁画,本身就是一种压缩

DeepSeek-OCR做的事,和当年的人类其实没什么两样——只不过这次,是AI在学习人类的智慧。

About 金色传说大聪明

赛博禅心公众号作者

https://mp.weixin.qq.com/s/Vw1DJq0kB_GgyebwYEg0dA
Advertisement