1つの視覚トークンが10個のテキストトークンに匹敵:DeepSeek-OCRが示す情報理論の新知見
テキストは本当に情報圧縮の最良の手段なのか?
一見シンプルなこの問いは、実は深遠です。DeepSeek-OCRが遂にデータ駆動の答えを提示しました:視覚トークンはテキストトークンより効率的になり得る。
情報理論から視覚圧縮を理解する
Hacker Newsで高評価を得たコメントが核心を捉えています:
テキストトークン = 離散的ルックアップテーブル:
- 小整数(トークンID)→ テーブル参照 → ベクトル
- 限定的トークン空間:通常約10万の可能なトークン
- 各トークンは少数のUTF-8バイトに対応
- ほとんどのトークナイザーは語境界を跨ぐトークンを作らない
視覚トークン = 連続値ベクトル:
- ルックアップテーブル不要—画像から直接ベクトル化
- 巨大なトークン空間:高次元浮動小数点ベクトル、各次元で多様な値
- トークンあたりより多くのビットを伝達可能
これがDeepSeek-OCRの10倍圧縮能力の理由です。
DeepEncoder:洗練された三段階アーキテクチャ
DeepSeek-OCRの核心はDeepEncoder—わずか3.8億パラメータですが、緻密に設計されています:
第一段階:低活性化局所処理
- 8000万SAM-base + ウィンドウ注意機構
- 1024×1024画像 → 4096パッチトークン
- 制御された活性化メモリ
第二段階:16倍圧縮
- 2層畳み込みモジュール、16×ダウンサンプリング
- 4096トークン → 256トークン
- グローバル注意前に計算量を大幅削減
第三段階:グローバル意味理解
- 3億CLIP-large + グローバル注意
- 圧縮された256トークンの深い理解
- 入力削減により計算コスト許容範囲
効率性の妙技:
- 大半のVLM:720〜760億活性化パラメータ
- DeepSeek-OCRデコーダー:30億パラメータ、活性化は5.7億のみ
- MoEアーキテクチャで推論毎にスパースな専門家を活性化
マルチ解像度サポート:TinyからGundamまで
6つのモードで様々な文書タイプに対応:
モード | 解像度 | トークン数 | 用途 |
---|---|---|---|
Tiny | 512×512 | 64 | シンプルなスライド・文書 |
Small | 640×640 | 100 | 一般文書 |
Base | 1024×1024 | 256 | 複雑な文書 |
Large | 1280×1280 | 400 | 高品質文書 |
Gundam | 動的 | 800+ | 新聞、超高解像度 |
1つのモデルが文書の複雑さに応じて「圧縮強度」を調整します。
圧縮率と精度のトレードオフ
Foxベンチマークデータが圧縮の境界を示します:
10倍圧縮:約97%精度—大半の文書でスイートスポット
20倍圧縮:約60%精度—複雑なレイアウトと低解像度ブレによる性能低下
ブレ効果は自然に**「忘却メカニズム」**を模倣—長コンテキスト応用への伏線です。
OCRを超えて:深層文書解析
DeepSeek-OCRは単なる文字認識を遥かに超えます:
- グラフ変換:財務報告 → 構造化データ(棒・折線・円グラフ)
- 化学式:分子構造図 → SMILES形式(研究に不可欠)
- 幾何図形:教育分野への応用
- 100+言語:一般言語と希少言語の両方で優れた性能
最も想像力豊かな部分:記憶忘却メカニズム
論文で最もクールな提案:解像度低減による人間の記憶減衰シミュレーション。
人間の記憶は時間とともに薄れます。DeepSeek-OCRはこれを模倣可能:
- 1時間前:鮮明 → Gundamモード(800+トークン)
- 1週間前:曖昧 → Baseモード(256トークン)
- 1年前:ほぼ忘却 → Tinyモード(64トークン)
これにより「理論上無限のコンテキストウィンドウ」が可能に—人間の認知のように遠い記憶を自然に褪色させます。
オープンソースとコミュニティ影響
MITライセンスで完全オープンソース:
- GitHub: https://github.com/deepseek-ai/DeepSeek-OCR
- HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-OCR
急速に3.3K+GitHubスターを獲得、Hacker Newsの話題に。コミュニティの議論は実装だけでなく、「情報圧縮媒体としての視覚」というパラダイムシフトに焦点を当てています。
結論:問いへの再訪
テキストは情報圧縮の最良の手段か?
DeepSeek-OCRの答え:必ずしもそうではない。
情報理論から:
- 視覚トークンはトークンあたりより多くのビットを伝達
- 画像は2次元、テキストは1次元
- 視覚トークンは意味空間で動作、テキストトークンは単なる部分語スライス
進化生物学から:
- 視覚は人類の主要な情報処理チャネル
- 文字誕生前の数十万年、我々の祖先は視覚で生存
- エジプト象形文字や敦煌壁画自体が圧縮の一形態
DeepSeek-OCRは人類が数千年前にしたことを再現—ただし今回は、AIが人間の知恵から学んでいます。