Advertisement
DeepSeekSilicon ValleyAI InnovationJPEG Moment

AI的JPEG时刻:硅谷为何夸DeepSeek-OCR夸疯了?

2025年10月21日一水15 min read

硅谷为什么夸疯了?

DeepSeek最新开源的模型,已经被硅谷夸疯了!

因为实在太DeepSeek了——3B规模、指数级效能变革、大道至简,甚至被认为把谷歌Gemini严防死守的商业机密开源了。

唯一的问题可能就是被**"OCR"**命名耽误了。

核心创新:视觉作为文本压缩媒介

DeepSeek-OCR瞄准的是大模型处理长文本时的算力爆炸难题。虽然模型参数很小,但四两拨千斤,其背后所代表的**"用视觉方式压缩一切"**的思想,大道至简。

核心洞察

  • 一张图能包含大量文字(用的token还更少)
  • 将视觉作为文本压缩媒介
  • 就好比优秀的人看书都是扫一眼就知道内容,不必一字一句读完

惊人的压缩效果

DeepSeek研究后发现:

当压缩率小于10倍时

  • 文本token数是视觉token数的10倍以内
  • 模型OCR解码准确率高达97%

当压缩率高达20倍时

  • 准确率依旧能保持在**60%**左右
  • 效果相当能打

生产效率

  • 仅凭一块A100-40G GPU
  • 每天就能生成超过20万页的优质LLM/VLM训练数据

GitHub和HuggingFace火爆

发布后迅速:

  • GitHub:3.3K+ stars
  • HuggingFace:热榜第二
  • Hacker News:热点话题

Karpathy和社区怎么说?

Andrej Karpathy(前特斯拉AI总监):

"我很喜欢……特别是图像比文字更适合LLM输入,妙啊。"

社区评论

  • "这是AI的JPEG时刻"
  • "AI记忆架构打开了新路径"
  • "谷歌Gemini的核心商业机密被开源了"

两大核心组件:编码器与解码器

编码器:DeepEncoder 负责把图片转成高度压缩的视觉token。

设计特点:

  • 局部处理:80M参数的SAM-base,使用窗口注意力
  • 16倍压缩:2层卷积模块,4096 token → 256 token
  • 全局理解:300M参数的CLIP-large,使用全局注意力

关键优势:

  • 大部分VLM激活参数:72B-76B
  • DeepSeek-OCR解码器:3B参数,但激活仅570M
  • MOE架构每次只激活部分专家

解码器:DeepSeek-3B-MoE 负责从压缩的视觉token里重建文字。

  • 激活参数:570M
  • 表达能力:相当于3B模型
  • 推理效率:类似500M小型模型

OmniDocBench:新SOTA

在主流文档解析基准OmniDocBench上:

对比维度DeepSeek-OCRGOT-OCR2.0MinerU2.0
Token数1002567000+
性能超越基准被超越

详细对比

  • 100个token → 超越GOT-OCR2.0的256个token
  • 400个token(有效285个) → 与之前SOTA相当
  • 800个token → 大大超过MinerU2.0的7000+个token

多分辨率支持:从Tiny到Gundam

模式分辨率Token数压缩比适用场景
Tiny512×51264~20×简单文档、幻灯片
Small640×640100~15×一般书籍、报告
Base1024×1024256~10×标准文档
Large1280×1280400~7×高质量文档
Gundam动态分块800+~5×报纸、超高分辨率

实用表现

  • 对于书籍和报告,仅需100个视觉token即可达到良好性能
  • 大多数文档的文本token数量在1000以内
  • 视觉token压缩比不超过10×时效果最佳

超越OCR:深度解析能力

DeepSeek-OCR不只能识别文字,还能:

1. 图表转换

  • 金融报表 → 结构化数据
  • 支持柱状图、折线图、饼图等

2. 化学分子式

  • 化学结构式 → SMILES格式
  • 科研领域关键能力

3. 数学几何图

  • 简单几何图形识别和转换
  • 教育领域应用

4. 多语言支持

  • 处理近100种语言
  • 常见语言和稀有语言都能应对

5. 通用图像理解

  • 图像描述
  • 物体检测
  • 语境定位(grounding)

记忆遗忘机制:模拟人类智能

DeepSeek提出了一个脑洞大开的想法:用光学压缩模拟人类的遗忘机制

核心类比

  • 人类记忆:随时间推移而衰退
  • 视觉感知:随空间距离拉远而退化
  • 两者都表现出渐进式的信息丢失模式

实现方式

时间维度记忆清晰度对应模式Token数压缩比
最近清晰可见Gundam800+
近期基本清楚Large400中低
中期开始模糊Base256
远期很模糊Small100中高
久远几乎忘了Tiny64

理论意义

  • 近期信息保持高保真度
  • 远期记忆渐进式压缩,自然褪色
  • 有望实现"理论上无限的context window"
  • 不是无限扩大窗口,而是让信息自然衰减

三位低调的作者

Haoran Wei

  • 曾就职于阶跃星辰
  • 主导开发GOT-OCR2.0系统
  • DeepSeek-OCR延续了技术路径

Yaofeng Sun

  • 参与DeepSeek R1、V3等多款模型研发
  • 持续为DeepSeek核心团队贡献

Yukun Li(李宇琨)

  • 谷歌学术论文近万引
  • 参与DeepSeek V2/V3等模型研发

为什么是"AI的JPEG时刻"?

JPEG的历史启示

  • 1992年JPEG标准发布
  • 用有损压缩大幅减少图像文件大小
  • 在肉眼几乎无法察觉的前提下,实现10:1甚至更高的压缩比
  • 彻底改变了图像存储和传输

DeepSeek-OCR的平行

  • 用视觉token压缩文本token
  • 10:1压缩比下准确率97%
  • 彻底改变多模态模型的效率
  • 为长上下文问题提供全新思路

实用价值与部署表现

数据生成效率

  • 20个计算节点(每节点8张A100-40G)
  • 每日生成3300万页训练数据
  • 单GPU每天超过20万页

实际应用场景

  1. LLM/VLM预训练数据生成
  2. 文档深度解析:金融报表、研究报告
  3. 科研文档处理:化学分子式、数学公式
  4. 多语言文档解析:100+种语言支持
  5. 长对话系统:利用记忆遗忘机制

开源与未来

开源信息

未来方向

  1. 提升压缩比:探索20倍以上的压缩可能性
  2. 完善遗忘机制:验证在长上下文场景的实际效果
  3. 扩展应用场景:从OCR到通用视觉-文本压缩
  4. 优化推理效率:进一步降低计算成本

结语:范式的转变

DeepSeek-OCR不仅是一个技术突破,更是一次范式转变:

从一维到二维

  • 文字是一维的,只能线性处理
  • 图像是二维的,可以并行理解

从离散到连续

  • 文本token是离散查找表
  • 视觉token是连续向量空间

从记忆到遗忘

  • 传统AI追求无限记忆
  • DeepSeek-OCR学习人类的遗忘

从完美到效率

  • 不追求100%准确率
  • 在97%准确率下实现10倍效率提升

正如社区所言,这可能是**"AI的JPEG时刻"**——不是完美无损,而是在可接受的质量损失下,实现了效率的革命性提升。

而DeepSeek再次证明:大道至简,效率为王。

Advertisement