1个视觉Token抵得上10个文本Token:DeepSeek-OCR的信息论启示
文字,是信息压缩的最好方式吗?
这是一个看似简单,实则深刻的问题。直到DeepSeek开源了DeepSeek-OCR,我们才有了数据支撑的答案:视觉token可以比文本token更高效。
从信息论角度理解视觉压缩
在Hacker News上,DeepSeek-OCR引发了激烈讨论。其中一个高赞回答道出了关键:
文本token是离散的查找表:
- 有个小整数(token ID)→ 查表得到一个向量
- token空间有限,通常就10万个可能的token
- 每个token对应一小段UTF-8字节
- 大多数分词器不会创建跨越词边界的token
视觉token是连续值向量:
- 没有查找表,直接从图像编码成向量
- token空间巨大:高维浮点数向量,每个维度可以取很多值
- 能传达更多的bits per token
这就是为什么DeepSeek-OCR能实现10倍压缩的关键原因。
DeepEncoder:巧妙的三段式架构
DeepSeek-OCR的核心是一个叫DeepEncoder的架构,参数量仅380M,但设计非常讲究:
第一段:低激活局部处理
- 80M的SAM-base + 窗口注意力机制
- 对1024×1024图像,生成4096个patch token
- 激活内存消耗可控
第二段:16倍压缩
- 2层卷积模块,16×下采样
- 4096个token → 256个token
- 进入全局注意力前大幅减少计算量
第三段:全局语义理解
- 300M的CLIP-large + 全局注意力
- 深度理解这256个压缩后的token
- 由于输入token数量已大幅减少,计算开销可接受
这种设计的巧妙之处在于:
- 大部分VLM的激活参数动辄72B-76B
- DeepSeek-OCR的解码器虽是3B参数,但激活参数只有570M
- MOE架构每次只激活一部分专家,显存占用小、速度快
多分辨率统一:从Tiny到Gundam
DeepSeek-OCR设计了6种模式,支持多种分辨率:
| 模式 | 分辨率 | Token数 | 适用场景 |
|---|---|---|---|
| Tiny | 512×512 | 64 | 幻灯片、简单文档 |
| Small | 640×640 | 100 | 一般文档 |
| Base | 1024×1024 | 256 | 复杂文档 |
| Large | 1280×1280 | 400 | 高质量文档 |
| Gundam | 动态分块 | 800+ | 报纸、超高分辨率 |
这种设计让同一个模型可以根据文档复杂度选择合适的"压缩强度"。
压缩比与准确率的平衡
DeepSeek在Fox基准集上的实验数据展示了压缩的边界:
10倍压缩比:
- 准确率约97%
- 对大多数文档已经足够
- 这是一个甜蜜点(sweet spot)
20倍压缩比:
- 准确率仍可维持在**60%**左右
- 性能下降可能因为:
- 长文档布局更复杂
- 低分辨率下文本出现模糊
第二个问题其实可以看作一种**"遗忘机制"(forgetting mechanism)**的自然表现——这为后续的长上下文应用埋下了伏笔。
OCR 2.0:不只是识别文字
DeepSeek-OCR不止能识别文字,还能"深度解析"文档内容:
图表转换:
- 金融报告里的图表 → 结构化数据
- 支持柱状图、折线图、饼图等多种图表类型
化学分子式:
- 化学文档里的结构式 → SMILES格式
- 对科研领域极其关键
几何图形:
- 简单几何图形的识别和转换
- 教育领域的应用潜力
多语言支持:
- 处理近100种语言的PDF文档
- 不仅常见语言表现出色,稀有语言也能应对
最有想象力的部分:记忆遗忘机制
论文最后提出了一个非常酷的设想:用降低图像分辨率来模拟人类的记忆遗忘。
人类记忆有个特点:越久远的事情,记得越模糊。DeepSeek-OCR提出可以用分辨率来模拟这种衰减:
- 一小时前的事:还很清晰 → Gundam模式(800+ tokens)
- 一周前的事:已经很模糊 → Base模式(256 tokens)
- 一年前的事:几乎忘光了 → Tiny模式(64 tokens)
这个类比特别有意思:
- 最近的对话用高分辨率
- 更早的对话逐渐降低分辨率
- 既保留了历史信息,又控制了token数量
- 远期记忆自然"淡化",就像人类遗忘一样
如果这条路真的走通了,就能实现"理论上无限的context window"。
开源精神与社区反响
整个项目采用MIT许可证开源:
- GitHub: https://github.com/deepseek-ai/DeepSeek-OCR
- HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-OCR
发布后GitHub迅速获得3.3K+ stars,成为Hacker News热点话题。社区讨论的焦点不仅是技术实现,更多是对"视觉作为信息压缩媒介"这一范式的深度思考。
结语:回到最初的问题
回到开头的问题:文字,是信息压缩的最好方式吗?
DeepSeek-OCR用数据给出了答案:不一定。
从信息论角度看:
- 视觉token能传达更多的bits per token
- 图像是二维的,文字是一维的
- 视觉token在语义空间工作,文本token只是子词切片
从生物进化角度看:
- 视觉是人类处理信息最重要的手段
- 在文字诞生之前的几十万年里,我们祖先靠看来生存
- 埃及象形文字、敦煌壁画,本身就是一种压缩
DeepSeek-OCR做的事,和当年的人类其实没什么两样——只不过这次,是AI在学习人类的智慧。