Advertisement
DeepSeekContext CompressionAI MemoryParadigm Shift

DeepSeek-OCR:単なるOCRを超えた、コンテキスト圧縮の新パラダイム

2025年10月21日数字生命卡兹克12 min read

「OCR」という名前に惑わされた偉大なモデル

AI業界は日々進化しているが、多くのモデルは退屈になる一方だ。ベンチマークスコアが数ポイント上がるだけ。

そこにDeepSeekがDeepSeek-OCRをリリースした。

これは本当にクールだ。

名前に騙されるな

名前は「OCR」だが、これは単なるOCRモデルではない。

確かに従来のOCR作業はできる—画像のテキストを編集可能なデジタルテキストに変換する。しかし能力は従来のOCRを遥かに超える。

財務調査報告の例:

  • 従来のOCR:全テキストを正確に抽出 → TXTドキュメント作成 → 終了
  • DeepSeek-OCR:Markdown生成 → テキスト階層を保持 → グラフをコードで再描画 → 編集可能な表を作成

素晴らしい。しかしDeepSeek-OCRの真の力は:圧縮

長コンテキスト処理の悪夢

GPT-3.5から最新モデルまで、すべての大規模言語モデルがほぼ解決不可能な悪夢に直面:長コンテキスト処理

執筆、描画、会話はできる—しかし30万語の書籍要約など、適度に長いコンテンツを与えると基本的に爆発する。

なぜ?AIのテキスト処理は人間と異なる:

  • 人間の読書:一度に10行をスキャン
  • AI読書:すべての文字・単語をトークン化

主流AIアーキテクチャの欠陥:新しい単語を処理する際、コンテキスト理解のためすべての先行単語との接続確立が必要。

計算コストは二次的に増加(O(n²)複雑度)。

パーティーの類推:

  • 10人パーティー:全員交流 → 約45回の交流 → 管理可能
  • 100人パーティー:全員交流 → 約5000回の交流 → カオス

この指数的成長は誰も耐えられない。

古い車を修理するのではなく新しいEVを買う

AI界は長らく格闘してきた:どうすればAIが長コンテキストを迅速かつ安価に処理できるか?

多くの解決策:スライディングウィンドウ、スパース注意、アルゴリズム最適化。しかしこれらは漏れる廃車に良いタイヤを付けるようなもの—エンジンは修理できない

DeepSeekは代わりに新しいEVを買った:

核心的洞察:なぜAIに文字単位で読ませる必要があるのか?人間のように見ることはできないか?

  • 古い方法:300ページの書籍 → 数十万のテキストトークンに変換 → AIに供給
  • 新しい方法:300ページの書籍 → 各ページを撮影 → 画像作成 → AIに画像を見させる

疑問に思うかもしれない:これは回りくどくないか?画像はピクセル—より多い情報では?

重要なポイント

  • 画像は2D、テキストは1D
  • 1Dテキストは無限のフライドポテト—すべてのバイトを順次消費する必要がある
  • 2D画像はフラットブレッド—一目で全体像を把握

DeepSeek-OCRはまさにこれを行う:すべてのテキストを画像に圧縮

このプロセスは論文で**「コンテキスト対応光学圧縮」**と呼ばれる。

実世界応用シナリオ

すべてを明確にする具体例:

3日間AIアシスタントとチャット—1000ターンの会話、数十万または数百万トークンを消費すると想像してください。

従来アプローチのジレンマ: 「3日前に最初に言ったことは何?」と尋ねると、モデルは検索のため1000ターン全体をコンテキストに読み込む必要がある。これがメモリと計算を爆発させる。

現在のAIは数十ターンしか覚えていないため、しばしば「忘れる」。

DeepSeek-OCRの解決策

  1. 最近の記憶(最後の10ターン):テキストトークンとして保存

  2. 遠い記憶(以前の990ターン):

    • 長い画像として自動レンダリング(チャットスクリーンショットのように)
    • DeepEncoder呼び出し、1/10に視覚トークンに圧縮
    • コンテキストに一緒に含める
  3. 実際の使用

    • コンテキストには:10テキストトークンターン + 990視覚トークンターン
    • DeepSeek-3Bデコーダーが視覚トークンを検査
    • OCR訓練済み能力で元のテキストにデコード
    • 3日前の最初の文を見つけて回答

これがDeepSeek-OCRの全アーキテクチャ。

名前に騙されるな—これは単なるOCRではない。コンテキストの新パラダイムだ。

圧縮率:10×ほぼロスレス、20×まだ使用可能

論文のデータは驚異的:

10×圧縮

  • 認識精度:96.5%
  • ほぼロスレスの情報保持
  • 非常に実用的なスイートスポット

20×圧縮

  • 精度は**60%**を保持
  • 完璧ではないが最適化の余地を残す
  • 重要度の低い履歴コンテキストに使用可能

記憶忘却:驚異的なアイデア

論文のフィナーレは刺激的な概念を提示:

古いコンテキストについては、レンダリングされた画像を徐々に縮小してトークン消費をさらに削減。

この仮説は次から着想を得ている:

  • 人間の記憶は時間とともに減衰
  • 人間の視覚知覚は空間距離で劣化

両現象は類似した漸進的情報損失パターンを示す。

DeepSeek-OCRは「光学コンテキスト圧縮」を通じて記憶減衰を実装:

時間次元明瞭度対応モードトークン数
1時間前非常に鮮明Gundam800+
1週間前非常に曖昧Base256
1年前ほぼ忘却Tiny64

このメカニズムは生物学的忘却曲線をほぼ完璧に反映

  • 最近の情報は高忠実度を維持
  • 遠い記憶は漸進的に高い圧縮で自然に褪色

忘却はバグではなく機能

我々が常に追求してきたAIとは?

無限の記憶と絶対的合理性を持つ「神」。決して忘れず、誤らず—完璧な機械。

しかし我々自身はそうか?違う。

忘却は人類の最も重要な知恵の構成要素:

  • 革新し、本質を把握し、複雑な世界で決断できる
  • まさに脳が手放すことを知っているから
  • 重要でない詳細を忘れ、遠い痛みを曖昧にする
  • 貴重な認知資源を今重要なことに留保

忘却とエラーはバグではない—機能だ。

『ウエストワールド』のフォードの古典理論のように: 進化はこの惑星上の知覚ある生命を「たった一つのツール:ミステイクを使って」創造した。

忘却はその「ミステイク」。

オープンソースと普及

DeepSeek-OCRはMITライセンスで完全オープンソース:

興味があれば、原論文を読むことを強く推奨。深い技術的数学は不要—方法とパラダイムだけで多くを学べる。

結論

DeepSeek-OCRの最大の価値は有用なOCRツールであることではない—データで仮説を検証したこと:

視覚トークンは真に効率的に情報を表現できる。

視覚トークンを10×圧縮してもほぼロスレスなら、マルチモーダルシステム全体の効率が一桁向上。

記憶忘却メカニズムも魅力的:

  • 人間が忘れるのは脳容量不足のためではない
  • 忘却自体が最適化戦略だから
  • すべての詳細を覚える必要はない—重要で最近の情報だけ

この道が本当に機能すれば、長コンテキスト問題への理解を再形成する可能性:

  • コンテキストウィンドウを無限に拡大するのではなく
  • 情報を自然に減衰させる—人間の記憶のように

一枚の絵は千の言葉に値する—まさにこれを意味しているのかもしれない。

概要 数字生命卡兹克

专注AI领域深度解读

https://mp.weixin.qq.com/s/QjRW9yZylSmPSO1LEg_UFA
Advertisement
DeepSeek-OCR:単なるOCRを超えた、コンテキスト圧縮の新パラダイム | DeepSeek OCR