DeepSeek-OCR:視覚トークンの情報圧縮革命
DeepSeek-OCR:視覚・テキスト圧縮の境界を再定義
2025年10月20日、DeepSeekはAI界を驚かせる新モデル「DeepSeek-OCR」を発表しました。その核心的革新は、大胆な仮説を検証したことにあります:視覚トークンはテキストトークンよりも効率的に情報を表現できる。
コア・ブレークスルー:コンテキスト対応光学圧縮
従来の大規模言語モデルは、テキスト処理時に全ての文字・単語をトークン化します。300ページの書籍は数十万トークンを必要とし、膨大な計算コストを生みます。DeepSeek-OCRは逆転の発想を提示:画像が何千もの文字を「格納」できるなら、テキスト情報を画像に圧縮し、モデルに「視覚的に読ませる」のはどうか?
これが「コンテキスト対応光学圧縮」の本質です。テキストを画像としてレンダリングし、視覚エンコーダーで少数の視覚トークンに圧縮することで、驚異的な圧縮を実現:
- 10倍圧縮で97%の精度
- 20倍圧縮でも約60%の精度を維持
- わずか100トークンでGOT-OCR2.0の256トークンを上回る
- 800トークン未満でMinerU2.0の1ページ平均7000+トークンを超える性能
技術アーキテクチャ:DeepEncoder + MoEデコーダー
DeepSeek-OCRは2つのコア・コンポーネントで構成:
1. DeepEncoder(3.8億パラメータ)
- 局所処理:8000万のSAM-baseが細粒度特徴抽出を担当
- 圧縮モジュール:16倍畳み込み圧縮器がトークン数を大幅削減
- グローバル理解:3億のCLIP-largeが圧縮トークンを深く処理
2. DeepSeek-3B-MoEデコーダー
- 活性化パラメータはわずか5.7億、3Bモデル相当の表現力
- MoEアーキテクチャで推論毎にスパースな専門家を活性化
- 最小メモリフットプリントで高速推論
実用価値:従来のOCRを超えて
名称は「OCR」ですが、DeepSeek-OCRの価値は従来の文字認識を遥かに超えます:
- 文書深層解析:財務報告書や研究論文のグラフを編集可能な構造化データに変換
- 化学構造認識:分子構造図をSMILES形式に変換
- 多言語サポート:約100言語のPDF文書を処理
- 効率的データ生成:A100-40G GPU 1枚で1日20万ページ超のLLM/VLM訓練データを生成
本番デプロイメント性能
実際のアプリケーションで、DeepSeek-OCRはOmniDocBenchで新SOTAを達成:
- 書籍とレポートはわずか100視覚トークンで良好な性能
- 様々な文書タイプに対応:Tiny(64トークン)からGundam(800+トークン)まで
- 20計算ノード(各ノード8×A100-40G)で1日3300万ページの訓練データを生成
未来展望:記憶忘却メカニズム
論文で最も想像力豊かな提案:光学圧縮による人間の記憶忘却シミュレーション:
- 近期情報:高解像度画像(Gundamモード、800+トークン)
- 遠期情報:徐々に解像度を下げる(Base 256トークン→Tiny 64トークン)
- 人間の記憶のように、時間経過で情報が自然に減衰
このメカニズムは「理論上無限のコンテキストウィンドウ」を可能にし、大規模モデルの長コンテキスト問題に新たなアプローチを提供する可能性があります。
オープンソースとコミュニティ反応
プロジェクト全体がMITライセンスでオープンソース化—コード、モデル重み、技術論文すべて公開:
- GitHub: https://github.com/deepseek-ai/DeepSeek-OCR
- HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-OCR
リリース後、GitHubで即座に3.3K+スター獲得、HuggingFaceトレンド2位。元Tesla AI責任者Andrej Karpathy氏のコメント:「このアイデアが気に入った...画像はテキストよりLLM入力に適している、素晴らしい」。「AIのJPEGモーメント」と呼ぶ人もおり、AIメモリアーキテクチャに新たな道を開きました。
結論
DeepSeek-OCRは「一枚の絵は千の言葉に値する」という情報理論の原理をデータで検証しました。圧縮の観点から、視覚トークンは確かにより効率的に情報を表現できます。これは単なる技術的ブレークスルーではなく、マルチモーダルAIアーキテクチャの根本的再考です。論文が述べるように:視覚・テキスト圧縮は実現可能であり、長コンテキスト問題への理解を変える可能性を秘めています。