Advertisement
DeepSeekContext CompressionAI MemoryParadigm Shift

DeepSeek-OCR:不只是OCR,更是上下文压缩的新范式

2025年10月21日数字生命卡兹克12 min read

被"OCR"命名耽误的伟大模型

AI圈虽然天天卷,但是很多的模型,真的越来越无聊了。每天就是跑分又多了几个点。

直到DeepSeek发布了DeepSeek-OCR。

这玩意,是真的有点酷。

不要被名字骗了

虽然名字叫"OCR",但这真的不只是个OCR模型。

说它是OCR,是因为它确实能干传统OCR的活——把图片上的字变成可以编辑、可以复制粘贴的数字文本。但它的能力远超传统OCR。

举个例子,当传统OCR看一张金融研究报告:

  • 传统OCR:精准地把所有文字抠出来 → 变成TXT文档 → 结束
  • DeepSeek-OCR:生成Markdown文档 → 文字是文字,标题是标题 → 图表用代码重新画了一遍 → 变成可编辑的表格

这个很牛逼了。但DeepSeek-OCR更重要的功能是:压缩

长文本处理的噩梦

现在所有的大语言模型,从GPT-3.5到各种最新模型,都面临一个共同的几乎无解的噩梦:长文本处理

你别看它们能写能画能聊天,但只要丢给它一篇稍微长点的内容,比如一本几十万字的书,让它理解、总结,基本上都要炸。

为什么?因为AI理解文字的方式和我们不一样:

  • 人类看书:一目十行
  • AI读文字:需要把每个字、每个词都转换成Token

现在主流AI架构的缺陷是:处理每一个新词时,为了理解上下文,需要把这个新词和前面所有出现过的词都建立一次联系。

计算量随着文本长度的平方增加(N²复杂度)。

举个Party的例子:

  • 10个人的Party:每个人贴贴一下 → 约45次贴贴 → 还行
  • 100个人的Party:每个人都要贴贴 → 将近5000次贴贴 → 废了

这个成本是指数级增长的,谁都扛不住。

买一辆新能源,而不是修旧车

长久以来,AI界都在死磕一个问题:怎么让AI能又快又便宜地搞定长上下文?

大家想了很多办法:滑动窗口、稀疏注意力、各种算法优化。但这些都像是给一辆漏油的破车换更好的轮胎、贴更骚的膜——解决不了发动机的根本问题

DeepSeek这次直接给你买了一辆新能源:

核心思想:为什么非要让AI一个字一个字地读?能不能让它像人一样,

  • 以前:把300页的书 → 转换成几十万个Token的文本文件 → 喂给AI
  • 现在:把300页书 → 拍成一张张照片 → 变成图像文件 → 让AI去看图

你可能觉得,这不是脱裤子放屁吗?照片不也是由像素组成的吗?信息量不是更大了吗?

关键点来了

  • 图像是二维的,文字是一维的
  • 一维文字像无限长的薯条,只能从头吃到尾,一个字节都不能少
  • 二维图像像一张大饼,一眼扫过去,整个饼的全貌尽收眼底

DeepSeek-OCR干的就是这事:把所有文字全部压缩成图像

这个过程在论文里叫**"上下文光学压缩"(Contexts Optical Compression)**。

真实应用场景案例

让我给你举一个真实的应用场景,你就全明白了:

假设你正在跟一个AI助手聊天,你俩已经聊了三天三夜,聊了1000轮,占了几十万甚至几百万Token。

传统方案的困境: 当你问"我三天前跟你说的第一件事是啥?",大模型必须把这1000轮的全部聊天记录都装进上下文窗口,才能查找。这会撑爆它的内存和算力。

所以现在的AI很多聊着聊着就失忆了,因为只能记住最近的几十轮对话。

DeepSeek-OCR的解决方案

  1. 近期记忆(最近10轮):用文本形式记在脑子里

  2. 远期记忆(更远的990轮):

    • 自动渲染成长长的图片(就像聊天记录截图)
    • 调用DeepEncoder编码器,压缩成原来1/10的视觉Token
    • 一起扔到上下文中记住
  3. 真正使用时

    • 上下文里装的是:10轮文本token + 990轮视觉token
    • DeepSeek-3B解码器看一眼视觉Token
    • 通过OCR任务训练的能力,解码还原成原文
    • 找到三天前的第一句话,回答你

这,就是DeepSeek-OCR的整个架构。

所以别被名字骗了,这真的不止是个OCR。这是关于上下文的全新范式。

压缩比:10倍几乎无损,20倍仍可用

论文给出的数据令人震撼:

10倍压缩比

  • 识别准确率高达96.5%
  • 几乎无损的信息保留
  • 这是一个非常实用的甜蜜点

20倍压缩比

  • 准确率还能保留60%
  • 虽然不完美,但给未来留下了优化空间
  • 可以用于不那么重要的历史上下文

记忆遗忘:最头皮发麻的想法

论文最后,DeepSeek提出了一个让人为之一振的想法:

对于更古老的上下文,可以逐步缩小渲染出的图像,以进一步减少token消耗。

这个假设的灵感来自:

  • 人类的记忆会随着时间推移而衰退
  • 人类的视觉感知会随着空间距离拉远而退化

这两种现象都表现出相似的、渐进式的信息丢失模式。

DeepSeek-OCR用"上下文光学压缩"的方法,实现了一种记忆衰减形式:

时间维度清晰度对应模式Token数
一小时前很清晰Gundam800+
一周前很模糊Base256
一年前几乎忘了Tiny64

这个机制几乎完美地镜像了生物的遗忘曲线

  • 近期信息保持高保真度
  • 遥远记忆通过不断提高的压缩率,自然褪色和淡忘

遗忘不是bug,是feature

我们一直以来追求的AI,是什么样的?

是一个拥有无限记忆、绝对理性的"神"。它不会遗忘,不会犯错,像一台完美的机器。

但我们自己是这样的吗?不是。

遗忘,恰恰是人类智慧最重要的组成部分:

  • 我们能够创新,能够抓住重点,能够在复杂世界里做出决断
  • 正是因为我们的大脑懂得放下
  • 我们会忘记不重要的细节,会模糊久远的伤痛
  • 我们把宝贵的认知资源留给当下最重要的事情

遗忘和错误,不是bug,是feature。

就像《西部世界》里福特的经典理论: 进化形成这个星球上有情感和知觉的生命体,"用的唯一工具,就是错误。"

遗忘,也是那个"错误"。

开源与传播

DeepSeek-OCR采用MIT许可证完全开源:

如果你对DeepSeek-OCR感兴趣,强烈建议去读一读原论文。不需要看很技术的原理和数学,只看方法和范式,就能学到很多东西。

结语

DeepSeek-OCR最有价值的地方,不在于它是一个好用的OCR工具,而在于它用数据验证了一个假设:

视觉token确实可以更高效地表达信息。

如果能把视觉token压缩10倍还几乎无损,整个多模态系统的效率都能提升一个量级。

记忆遗忘机制的设想也很有意思:

  • 人类会遗忘,不是因为大脑容量不够
  • 而是因为遗忘本身是一种优化策略
  • 你不需要记住所有细节,只需要记住重要的、近期的信息

如果这条路真的走通了,可能会改变我们对长上下文问题的理解:

  • 不是无限扩大context window
  • 而是让信息自然衰减,就像人类记忆一样

一图胜千言,可能说的就是如此吧。

About 数字生命卡兹克

专注AI领域深度解读

https://mp.weixin.qq.com/s/QjRW9yZylSmPSO1LEg_UFA
Advertisement