New🚀 最新:基于 DeepSeek OCR 3B 模型 - 开源免费!

DeepSeek OCR - AI 驱动的文字提取

全球首个基于 DeepSeek 视觉语言模型的在线 OCR 工具。97% 准确率,超低 Token 消耗。轻松将文档转换为 Markdown、提取图片文字、解析复杂布局。

🚀Try It Now

Experience DeepSeek OCR Live

Upload your images and see how DeepSeek OCR performs in real-time

💡 Tip: This demo is powered by Hugging Face Spaces. Try uploading different types of images to see the OCR capabilities.

性能指标

业界领先的 OCR 性能

DeepSeek OCR 通过前沿的视觉语言技术,提供卓越的准确性和效率

准确率

97%

文字提取准确率,可恢复 600-1000+ 个 token

Token 效率

100

每页仅需 100 tokens(GOT-OCR2.0 需 256 tokens)

处理速度

20万+

单张 A100-40G GPU 每天可处理页数

革命性的视觉压缩技术

DeepSeek OCR 首创将视觉作为长上下文压缩介质,实现 10× 无损压缩和 20× 可用压缩比

  • 视觉即压缩
    首次系统性证明视觉模态可作为文本压缩介质 - 仅用 64-100 个视觉 tokens 即可恢复 600-1000+ 个文本 tokens
  • 定制视觉编码器
    DeepEncoder 结合窗口注意力 + 全局注意力 + 16× 压缩结构,专为光学压缩而非视觉理解优化
  • 生产就绪
    不仅是研究成果 - 即插即用的生产级模型,内置多语言支持、图表解析和公式识别
快速开始

如何使用 DeepSeek OCR

三种方式使用 DeepSeek OCR - 选择最适合您工作流程的方式

1

在线工具(即将推出)

上传图片或 PDF,即时获取 OCR 结果。无需安装。免费额度:10 次转换/天。

2

Python API(Transformers)

通过 pip 安装,加载模型,调用 infer() 方法。适合简单脚本和原型开发。支持 CUDA 加速。

3

vLLM 批处理

高性能批处理,A100-40G 上可达 ~2500 tokens/s。适合生产工作负载和大规模文档处理。

4

自托管部署

部署到您自己的基础设施,最大化隐私和控制。支持 Docker、Kubernetes 和云平台。

核心优势

为什么选择 DeepSeek OCR?

基于前沿研究,为实际应用场景提供切实优势

100 tokens/页 vs 256 tokens(GOT-OCR2.0)- 节省高达 60% 的 API 成本,同时保持 SOTA 准确率。适合大规模文档处理。

全面的 OCR 功能

从简单的文字提取到复杂的文档解析 - DeepSeek OCR 应有尽有

文档转 Markdown

将文档转换为结构化 Markdown,保留布局、表格和格式。适合内容迁移和文档编写。

多语言支持

内置多语言高精度识别。支持处理英语、中文、日语等多种语言文档。

图表解析

从图表、图示和插图中提取数据。理解视觉元素,不仅仅是文字提取。

公式识别

解析数学公式、化学方程式和几何符号。适合学术和科研文档。

多分辨率模式

Tiny(64 tokens)、Small(100 tokens)、Base(256 tokens)、Large(400 tokens)和 Gundam 模式适配复杂文档。

API 和 CLI 支持

通过 Python API 集成,使用 vLLM 进行高性能批处理,或尝试我们的在线工具快速完成任务。

简单透明的价格

免费开始,需要更多时再升级。无隐藏费用。

免费版

0永久免费

适合试用 DeepSeek OCR 和小型项目

  • 每天 10 次转换
  • 所有分辨率模式(Tiny 到 Large)
  • 基础 OCR + 文档转 Markdown
  • 通过 GitHub 获得社区支持

专业版

9.99每月

适合有更高需求的专业人士和团队

  • 无限次转换
  • Gundam 模式(复杂文档)
  • API 访问(更高速率限制)
  • 优先支持
  • 高级功能(批处理、Webhooks)
常见问题

常见问题解答

关于 DeepSeek OCR 您需要知道的一切 - 基于官方文档和实际集成经验

1

DeepSeek OCR 与 Tesseract 和 PaddleOCR 相比如何?

DeepSeek OCR 使用视觉语言模型(VLM)进行上下文感知 OCR,而 Tesseract 和 PaddleOCR 是传统的模式匹配引擎。主要区别:(1) 准确率:DeepSeek 在复杂布局(表格、公式、多语言混合)上表现出色,97% 准确率 vs Tesseract 在复杂文档上约 85%。(2) Token 效率:100 tokens/页 vs PaddleOCR 更高的处理开销。(3) 硬件:需要 GPU(8GB+ 显存)vs Tesseract 仅需 CPU。(4) 上下文理解:可使用周围文本上下文纠正 OCR 错误。从我在飞书集成 DeepSeek 模型的经验看,对于生产级文档处理,VLM-based OCR 值得投入 GPU 成本。

2

分辨率模式(Tiny、Small、Base、Large、Gundam)有什么区别?

分辨率模式在 token 消耗和准确率之间平衡:Tiny(512×512,64 tokens)- 简单收据/笔记,文字清晰;Small(640×640,100 tokens)- 标准文档,大多数场景推荐;Base(1024×1024,256 tokens)- 包含表格/图表的复杂布局;Large(1280×1280,400 tokens)- 高分辨率扫描文档;Gundam(动态 n×640×640 + 1×1024×1024)- 密集公式和插图的学术论文。实用建议:从 Small 模式开始,只有在准确率低于要求时才升级。这样可以显著节省 API 成本而不牺牲质量。

3

DeepSeek OCR 真的是免费和开源的吗?

是的,100% 开源!3B 参数模型在 GitHub (https://github.com/deepseek-ai/DeepSeek-OCR) 和 Hugging Face 上提供,采用宽松许可。您可以:(1) 在自己的基础设施上自托管(无 API 成本),(2) 根据特定需求修改模型,(3) 无许可费商业使用。本网站的在线工具提供免费额度(10 次转换/天)用于快速任务。对于生产使用,建议使用 vLLM 自托管以实现最大成本效益(云 GPU 上约 $0.001/页 vs 商业 OCR API 的 $0.01-0.05/页)。

4

自托管的硬件要求是什么?

GPU 要求:最低:8GB 显存(RTX 3070、RTX 4060 Ti)用于基本推理,约 5-10 页/分钟。推荐:16GB+ 显存(RTX 4090、A100-40G)用于生产环境,约 100-200 页/分钟。企业级:多 GPU 配置(2-4× A100)处理 20 万+ 页/天。软件:CUDA 11.8+、PyTorch 2.6.0、vLLM 0.8.5+ 以获得最佳吞吐量。CPU 推理可行但慢 50-100 倍(不推荐)。云选项:AWS(p3/p4 实例)、GCP(A100 VM)、Azure(NCv3 系列)。从实践经验看,单张 RTX 4090 可经济高效地处理大多数中小型工作负载。

准备体验下一代 OCR 了吗?

立即开始使用 DeepSeek OCR 转换文档。提供免费额度 - 无需信用卡。

DeepSeek OCR - 免费在线 OCR 工具 | 视觉语言模型文本提取