Advertisement
DeepSeekOCRVision-Language ModelAI Compression

DeepSeek-OCR:視覚トークンの情報圧縮革命

2025年10月20日新智元8 min read

DeepSeek-OCR:視覚・テキスト圧縮の境界を再定義

2025年10月20日、DeepSeekはAI界を驚かせる新モデル「DeepSeek-OCR」を発表しました。その核心的革新は、大胆な仮説を検証したことにあります:視覚トークンはテキストトークンよりも効率的に情報を表現できる

コア・ブレークスルー:コンテキスト対応光学圧縮

従来の大規模言語モデルは、テキスト処理時に全ての文字・単語をトークン化します。300ページの書籍は数十万トークンを必要とし、膨大な計算コストを生みます。DeepSeek-OCRは逆転の発想を提示:画像が何千もの文字を「格納」できるなら、テキスト情報を画像に圧縮し、モデルに「視覚的に読ませる」のはどうか?

これが「コンテキスト対応光学圧縮」の本質です。テキストを画像としてレンダリングし、視覚エンコーダーで少数の視覚トークンに圧縮することで、驚異的な圧縮を実現:

  • 10倍圧縮97%の精度
  • 20倍圧縮でも約60%の精度を維持
  • わずか100トークンでGOT-OCR2.0の256トークンを上回る
  • 800トークン未満でMinerU2.0の1ページ平均7000+トークンを超える性能

技術アーキテクチャ:DeepEncoder + MoEデコーダー

DeepSeek-OCRは2つのコア・コンポーネントで構成:

1. DeepEncoder(3.8億パラメータ)

  • 局所処理:8000万のSAM-baseが細粒度特徴抽出を担当
  • 圧縮モジュール:16倍畳み込み圧縮器がトークン数を大幅削減
  • グローバル理解:3億のCLIP-largeが圧縮トークンを深く処理

2. DeepSeek-3B-MoEデコーダー

  • 活性化パラメータはわずか5.7億、3Bモデル相当の表現力
  • MoEアーキテクチャで推論毎にスパースな専門家を活性化
  • 最小メモリフットプリントで高速推論

実用価値:従来のOCRを超えて

名称は「OCR」ですが、DeepSeek-OCRの価値は従来の文字認識を遥かに超えます:

  1. 文書深層解析:財務報告書や研究論文のグラフを編集可能な構造化データに変換
  2. 化学構造認識:分子構造図をSMILES形式に変換
  3. 多言語サポート:約100言語のPDF文書を処理
  4. 効率的データ生成:A100-40G GPU 1枚で1日20万ページ超のLLM/VLM訓練データを生成

本番デプロイメント性能

実際のアプリケーションで、DeepSeek-OCRはOmniDocBenchで新SOTAを達成:

  • 書籍とレポートはわずか100視覚トークンで良好な性能
  • 様々な文書タイプに対応:Tiny(64トークン)からGundam(800+トークン)まで
  • 20計算ノード(各ノード8×A100-40G)で1日3300万ページの訓練データを生成

未来展望:記憶忘却メカニズム

論文で最も想像力豊かな提案:光学圧縮による人間の記憶忘却シミュレーション

  • 近期情報:高解像度画像(Gundamモード、800+トークン)
  • 遠期情報:徐々に解像度を下げる(Base 256トークン→Tiny 64トークン)
  • 人間の記憶のように、時間経過で情報が自然に減衰

このメカニズムは「理論上無限のコンテキストウィンドウ」を可能にし、大規模モデルの長コンテキスト問題に新たなアプローチを提供する可能性があります。

オープンソースとコミュニティ反応

プロジェクト全体がMITライセンスでオープンソース化—コード、モデル重み、技術論文すべて公開:

リリース後、GitHubで即座に3.3K+スター獲得、HuggingFaceトレンド2位。元Tesla AI責任者Andrej Karpathy氏のコメント:「このアイデアが気に入った...画像はテキストよりLLM入力に適している、素晴らしい」。「AIのJPEGモーメント」と呼ぶ人もおり、AIメモリアーキテクチャに新たな道を開きました。

結論

DeepSeek-OCRは「一枚の絵は千の言葉に値する」という情報理論の原理をデータで検証しました。圧縮の観点から、視覚トークンは確かにより効率的に情報を表現できます。これは単なる技術的ブレークスルーではなく、マルチモーダルAIアーキテクチャの根本的再考です。論文が述べるように:視覚・テキスト圧縮は実現可能であり、長コンテキスト問題への理解を変える可能性を秘めています。

概要 新智元

专注于人工智能前沿科技报道

https://mp.weixin.qq.com/s/q4HKX9EQGhpQ_OFCnRfivA
Advertisement
DeepSeek-OCR:視覚トークンの情報圧縮革命 | DeepSeek OCR