DeepSeek OCR - AI 驱动的文字提取
全球首个基于 DeepSeek 视觉语言模型的在线 OCR 工具。97% 准确率,超低 Token 消耗。轻松将文档转换为 Markdown、提取图片文字、解析复杂布局。
Experience DeepSeek OCR Live
Upload your images and see how DeepSeek OCR performs in real-time
💡 Tip: This demo is powered by Hugging Face Spaces. Try uploading different types of images to see the OCR capabilities.
业界领先的 OCR 性能
DeepSeek OCR 通过前沿的视觉语言技术,提供卓越的准确性和效率
准确率
97%
文字提取准确率,可恢复 600-1000+ 个 token
Token 效率
100
每页仅需 100 tokens(GOT-OCR2.0 需 256 tokens)
处理速度
20万+
单张 A100-40G GPU 每天可处理页数

革命性的视觉压缩技术
DeepSeek OCR 首创将视觉作为长上下文压缩介质,实现 10× 无损压缩和 20× 可用压缩比
- 视觉即压缩首次系统性证明视觉模态可作为文本压缩介质 - 仅用 64-100 个视觉 tokens 即可恢复 600-1000+ 个文本 tokens
- 定制视觉编码器DeepEncoder 结合窗口注意力 + 全局注意力 + 16× 压缩结构,专为光学压缩而非视觉理解优化
- 生产就绪不仅是研究成果 - 即插即用的生产级模型,内置多语言支持、图表解析和公式识别
如何使用 DeepSeek OCR
三种方式使用 DeepSeek OCR - 选择最适合您工作流程的方式
在线工具(即将推出)
上传图片或 PDF,即时获取 OCR 结果。无需安装。免费额度:10 次转换/天。
Python API(Transformers)
通过 pip 安装,加载模型,调用 infer() 方法。适合简单脚本和原型开发。支持 CUDA 加速。
vLLM 批处理
高性能批处理,A100-40G 上可达 ~2500 tokens/s。适合生产工作负载和大规模文档处理。
自托管部署
部署到您自己的基础设施,最大化隐私和控制。支持 Docker、Kubernetes 和云平台。
为什么选择 DeepSeek OCR?
基于前沿研究,为实际应用场景提供切实优势



全面的 OCR 功能
从简单的文字提取到复杂的文档解析 - DeepSeek OCR 应有尽有
文档转 Markdown
将文档转换为结构化 Markdown,保留布局、表格和格式。适合内容迁移和文档编写。
多语言支持
内置多语言高精度识别。支持处理英语、中文、日语等多种语言文档。
图表解析
从图表、图示和插图中提取数据。理解视觉元素,不仅仅是文字提取。
公式识别
解析数学公式、化学方程式和几何符号。适合学术和科研文档。
多分辨率模式
Tiny(64 tokens)、Small(100 tokens)、Base(256 tokens)、Large(400 tokens)和 Gundam 模式适配复杂文档。
API 和 CLI 支持
通过 Python API 集成,使用 vLLM 进行高性能批处理,或尝试我们的在线工具快速完成任务。
简单透明的价格
免费开始,需要更多时再升级。无隐藏费用。
免费版
适合试用 DeepSeek OCR 和小型项目
- 每天 10 次转换
- 所有分辨率模式(Tiny 到 Large)
- 基础 OCR + 文档转 Markdown
- 通过 GitHub 获得社区支持
专业版
适合有更高需求的专业人士和团队
- 无限次转换
- Gundam 模式(复杂文档)
- API 访问(更高速率限制)
- 优先支持
- 高级功能(批处理、Webhooks)
常见问题解答
关于 DeepSeek OCR 您需要知道的一切 - 基于官方文档和实际集成经验
DeepSeek OCR 与 Tesseract 和 PaddleOCR 相比如何?
DeepSeek OCR 使用视觉语言模型(VLM)进行上下文感知 OCR,而 Tesseract 和 PaddleOCR 是传统的模式匹配引擎。主要区别:(1) 准确率:DeepSeek 在复杂布局(表格、公式、多语言混合)上表现出色,97% 准确率 vs Tesseract 在复杂文档上约 85%。(2) Token 效率:100 tokens/页 vs PaddleOCR 更高的处理开销。(3) 硬件:需要 GPU(8GB+ 显存)vs Tesseract 仅需 CPU。(4) 上下文理解:可使用周围文本上下文纠正 OCR 错误。从我在飞书集成 DeepSeek 模型的经验看,对于生产级文档处理,VLM-based OCR 值得投入 GPU 成本。
分辨率模式(Tiny、Small、Base、Large、Gundam)有什么区别?
分辨率模式在 token 消耗和准确率之间平衡:Tiny(512×512,64 tokens)- 简单收据/笔记,文字清晰;Small(640×640,100 tokens)- 标准文档,大多数场景推荐;Base(1024×1024,256 tokens)- 包含表格/图表的复杂布局;Large(1280×1280,400 tokens)- 高分辨率扫描文档;Gundam(动态 n×640×640 + 1×1024×1024)- 密集公式和插图的学术论文。实用建议:从 Small 模式开始,只有在准确率低于要求时才升级。这样可以显著节省 API 成本而不牺牲质量。
DeepSeek OCR 真的是免费和开源的吗?
是的,100% 开源!3B 参数模型在 GitHub (https://github.com/deepseek-ai/DeepSeek-OCR) 和 Hugging Face 上提供,采用宽松许可。您可以:(1) 在自己的基础设施上自托管(无 API 成本),(2) 根据特定需求修改模型,(3) 无许可费商业使用。本网站的在线工具提供免费额度(10 次转换/天)用于快速任务。对于生产使用,建议使用 vLLM 自托管以实现最大成本效益(云 GPU 上约 $0.001/页 vs 商业 OCR API 的 $0.01-0.05/页)。
自托管的硬件要求是什么?
GPU 要求:最低:8GB 显存(RTX 3070、RTX 4060 Ti)用于基本推理,约 5-10 页/分钟。推荐:16GB+ 显存(RTX 4090、A100-40G)用于生产环境,约 100-200 页/分钟。企业级:多 GPU 配置(2-4× A100)处理 20 万+ 页/天。软件:CUDA 11.8+、PyTorch 2.6.0、vLLM 0.8.5+ 以获得最佳吞吐量。CPU 推理可行但慢 50-100 倍(不推荐)。云选项:AWS(p3/p4 实例)、GCP(A100 VM)、Azure(NCv3 系列)。从实践经验看,单张 RTX 4090 可经济高效地处理大多数中小型工作负载。