DeepSeekOCRVision-Language ModelAI Compression

DeepSeek-OCR：視覚トークンの情報圧縮革命

2025年10月20日•新智元•8 min read

DeepSeek-OCR：視覚・テキスト圧縮の境界を再定義

2025年10月20日、DeepSeekはAI界を驚かせる新モデル「DeepSeek-OCR」を発表しました。その核心的革新は、大胆な仮説を検証したことにあります：視覚トークンはテキストトークンよりも効率的に情報を表現できる。

コア・ブレークスルー：コンテキスト対応光学圧縮

従来の大規模言語モデルは、テキスト処理時に全ての文字・単語をトークン化します。300ページの書籍は数十万トークンを必要とし、膨大な計算コストを生みます。DeepSeek-OCRは逆転の発想を提示：画像が何千もの文字を「格納」できるなら、テキスト情報を画像に圧縮し、モデルに「視覚的に読ませる」のはどうか？

これが「コンテキスト対応光学圧縮」の本質です。テキストを画像としてレンダリングし、視覚エンコーダーで少数の視覚トークンに圧縮することで、驚異的な圧縮を実現：

10倍圧縮で97%の精度
20倍圧縮でも約60%の精度を維持
わずか100トークンでGOT-OCR2.0の256トークンを上回る
800トークン未満でMinerU2.0の1ページ平均7000+トークンを超える性能

技術アーキテクチャ：DeepEncoder + MoEデコーダー

DeepSeek-OCRは2つのコア・コンポーネントで構成：

1. DeepEncoder（3.8億パラメータ）

局所処理：8000万のSAM-baseが細粒度特徴抽出を担当
圧縮モジュール：16倍畳み込み圧縮器がトークン数を大幅削減
グローバル理解：3億のCLIP-largeが圧縮トークンを深く処理

2. DeepSeek-3B-MoEデコーダー

活性化パラメータはわずか5.7億、3Bモデル相当の表現力
MoEアーキテクチャで推論毎にスパースな専門家を活性化
最小メモリフットプリントで高速推論

実用価値：従来のOCRを超えて

名称は「OCR」ですが、DeepSeek-OCRの価値は従来の文字認識を遥かに超えます：

文書深層解析：財務報告書や研究論文のグラフを編集可能な構造化データに変換
化学構造認識：分子構造図をSMILES形式に変換
多言語サポート：約100言語のPDF文書を処理
効率的データ生成：A100-40G GPU 1枚で1日20万ページ超のLLM/VLM訓練データを生成

本番デプロイメント性能

実際のアプリケーションで、DeepSeek-OCRはOmniDocBenchで新SOTAを達成：

書籍とレポートはわずか100視覚トークンで良好な性能
様々な文書タイプに対応：Tiny（64トークン）からGundam（800+トークン）まで
20計算ノード（各ノード8×A100-40G）で1日3300万ページの訓練データを生成

未来展望：記憶忘却メカニズム

論文で最も想像力豊かな提案：光学圧縮による人間の記憶忘却シミュレーション：

近期情報：高解像度画像（Gundamモード、800+トークン）
遠期情報：徐々に解像度を下げる（Base 256トークン→Tiny 64トークン）
人間の記憶のように、時間経過で情報が自然に減衰

このメカニズムは「理論上無限のコンテキストウィンドウ」を可能にし、大規模モデルの長コンテキスト問題に新たなアプローチを提供する可能性があります。

オープンソースとコミュニティ反応

プロジェクト全体がMITライセンスでオープンソース化—コード、モデル重み、技術論文すべて公開：

GitHub: https://github.com/deepseek-ai/DeepSeek-OCR
HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-OCR

リリース後、GitHubで即座に3.3K+スター獲得、HuggingFaceトレンド2位。元Tesla AI責任者Andrej Karpathy氏のコメント：「このアイデアが気に入った...画像はテキストよりLLM入力に適している、素晴らしい」。「AIのJPEGモーメント」と呼ぶ人もおり、AIメモリアーキテクチャに新たな道を開きました。

結論

DeepSeek-OCRは「一枚の絵は千の言葉に値する」という情報理論の原理をデータで検証しました。圧縮の観点から、視覚トークンは確かにより効率的に情報を表現できます。これは単なる技術的ブレークスルーではなく、マルチモーダルAIアーキテクチャの根本的再考です。論文が述べるように：視覚・テキスト圧縮は実現可能であり、長コンテキスト問題への理解を変える可能性を秘めています。

About 新智元

专注于人工智能前沿科技报道

https://mp.weixin.qq.com/s/q4HKX9EQGhpQ_OFCnRfivA