DeepSeek OCR - AI駆動のテキスト抽出
DeepSeekのビジョン言語モデルを搭載した世界初のオンラインOCRツール。97%の精度と超低トークン消費を実現。文書をMarkdownに変換、画像からテキスト抽出、複雑なレイアウトを簡単に解析。
Experience DeepSeek OCR Live
Upload your images and see how DeepSeek OCR performs in real-time
💡 Tip: This demo is powered by Hugging Face Spaces. Try uploading different types of images to see the OCR capabilities.
業界最高水準のOCR性能
DeepSeek OCRは最先端のビジョン言語技術により、卓越した精度と効率を実現
精度
97%
約600-1000+トークンを回復するテキスト抽出精度
トークン効率
100
1ページあたりのトークン数(GOT-OCR2.0の256トークンと比較)
処理速度
200K+
A100-40G GPU 1台で1日あたりのページ処理数

革新的なビジョン圧縮技術
DeepSeek OCRは、ビジョンを長文圧縮媒体として使用する先駆的技術により、10倍のロスレス圧縮と20倍の実用圧縮率を実現
- ビジョン圧縮技術ビジョンモダリティがテキスト圧縮媒体として機能することを初めて体系的に証明 - わずか64-100のビジョントークンから600-1000+のテキストトークンを回復
- カスタムビジョンエンコーダーDeepEncoderは、ウィンドウ+グローバルアテンションと16倍圧縮構造を組み合わせ、視覚理解ではなく光学圧縮に最適化
- 本番環境対応研究だけでなく、多言語サポート、チャート解析、数式認識を内蔵したプラグアンドプレイの本番モデル
DeepSeek OCRの使い方
DeepSeek OCRを活用する3つの方法 - ワークフローに最適な方法を選択
オンラインツール(近日公開)
画像やPDFをアップロードし、即座にOCR結果を取得。インストール不要。無料プラン:1日10回の変換。
Python API(Transformers)
pipでインストール、モデルをロード、infer()メソッドを呼び出し。シンプルなスクリプトやプロトタイピングに最適。CUDAによる高速化をサポート。
vLLMバッチ処理
A100-40Gで約2500トークン/秒の高性能バッチ処理。本番ワークロードや大規模文書処理に最適。
セルフホスティングデプロイ
最大限のプライバシーとコントロールのために、独自のインフラにデプロイ。Docker、Kubernetes、クラウドプラットフォームをサポート。
DeepSeek OCRを選ぶ理由
最先端の研究に基づき、実世界のユースケースに実用的なメリットを提供



包括的なOCR機能
シンプルなテキスト抽出から複雑な文書解析まで - DeepSeek OCRがすべてに対応
文書からMarkdownへ
文書を構造化されたMarkdownに変換し、レイアウト、表、フォーマットを保持。コンテンツ移行やドキュメント作成に最適。
多言語サポート
高精度の多言語対応を内蔵。英語、中国語、日本語など、さまざまな言語の文書を処理。
チャート・図表解析
チャート、ダイアグラム、図表からデータを抽出。単なるテキスト抽出を超えた視覚要素の理解。
数式認識
数学の公式、化学式、幾何学的表記を解析。学術・科学文書に最適。
複数の解像度モード
Tiny(64トークン)、Small(100トークン)、Base(256トークン)、Large(400トークン)、および複雑文書向けGundamモード。
API & CLIサポート
Python APIで統合、vLLMで高性能バッチ処理、またはクイックタスク向けオンラインツールを試用。
シンプルで透明な料金体系
無料で始めて、必要に応じてアップグレード。隠れたコストなし。
無料プラン
DeepSeek OCRを試したり、小規模プロジェクトに最適
- 1日10回の変換
- すべての解像度モード(TinyからLarge)
- 基本OCR + 文書からMarkdownへ
- GitHubコミュニティサポート
プロプラン
より多くのボリュームが必要なプロフェッショナルやチーム向け
- 無制限の変換
- 複雑文書向けGundamモード
- より高いレート制限のAPIアクセス
- 優先サポート
- 高度な機能(バッチ処理、Webhook)
よくある質問
DeepSeek OCRについて知っておくべきすべて
DeepSeek OCRはTesseractやPaddleOCRと比較してどうですか?
DeepSeek OCRはコンテキスト認識OCRのためにビジョン言語モデル(LLMベース)を使用していますが、TesseractとPaddleOCRは従来のOCRエンジンです。DeepSeekは複雑なレイアウトでより高い精度を達成し、コンテキストを使用して誤読された単語を修正できます。ただし、最適なパフォーマンスにはGPUが必要ですが、TesseractはCPUで実行できます。シンプルな文書ではTesseractの方が高速ですが、表や数式のある複雑な文書ではDeepSeek OCRが優れています。
解像度モード(Tiny、Small、Base、Large、Gundam)の違いは何ですか?
各モードはトークン消費と精度のトレードオフです:Tiny(512×512、64トークン)はシンプルなテキスト向け、Small(640×640、100トークン)はほとんどの文書向け、Base(1024×1024、256トークン)は複雑なレイアウト向け、Large(1280×1280、400トークン)は高解像度のニーズ向け、Gundam(動的解像度)は図表のある学術論文などの非常に複雑な文書向けです。最適なバランスを取るためにSmallから始めることをお勧めします。
DeepSeek OCRは本当に無料でオープンソースですか?
はい! 3Bモデルは許容的なライセンスの下でGitHubで完全にオープンソース化されています。制限なしにセルフホスティング、修正、商用利用が可能です。オンラインツールは無料プラン(1日10回の変換)を提供しています。より多くのボリュームや商用SaaS利用の場合は、継続的な開発をサポートするためにプロプランを提供しています。
セルフホスティングのハードウェア要件は何ですか?
最小要件:基本的な推論のために8GB VRAMのNVIDIA GPU(例:RTX 3070)。推奨:最適なパフォーマンスのために16GB以上のVRAM(例:RTX 4090、A100-40G)。CUDA 11.8+およびPyTorch 2.6.0をサポート。CPU推論は可能ですが非常に遅いです。本番ワークロードの場合、クラウドGPU(AWS、GCP、Azure)またはオンプレミスサーバーGPUをお勧めします。