Advertisement
Andrej KarpathyDeepSeek-OCRPixels vs TextLLM ArchitectureAI Commentary

Karpathy が語る:最初から AI に間違った「食事」を与えていた?

2025年10月24日Ben / 浮浮酱12 min read

Karpathy の破壊的見解:ピクセルこそ LLM の理想的入力?

OCR についてではない OCR レビュー

2025年10月20日、DeepSeek が DeepSeek-OCR 論文を発表しました。通常、業界の専門家は「認識率の向上」や「どのモデルを上回ったか」といった指標に注目するでしょう。

しかし、元テスラ AI ディレクター・OpenAI 共同創設者の Andrej Karpathy は全く予想外の角度から評価しました。彼はツイートで次のように述べました:

「新しい DeepSeek-OCR 論文はとても気に入っています。良い OCR モデルです(DOTS より少し劣るかもしれませんが)、データ収集なども良いですが、それは重要ではありません。私にとってより興味深いのは(特に心の中では依然としてコンピュータビジョン研究者で、一時的に自然言語処理者を装っている者として):ピクセルはテキストよりも LLM の入力として優れているのか?入力時のテキストトークンは無駄で最悪なのか?

この発言には多くの意味が込められています。Karpathy は本質的に手を振って言いました:「OCR 性能?重要ではない」と。彼が本当に興奮したのは、DeepSeek-OCR が無意識に検証した根本的な仮説——私たちは最初から AI に間違った「食事」を与えていたということです。

核心論点:なぜピクセルがテキストより優れているのか?

Karpathy は大胆なビジョンを提案しました:おそらくすべての LLM 入力は永遠に画像(ピクセル)のみであるべきです。純粋なテキスト入力がある場合でも、レンダリングしてから入力する方が良いかもしれません

直感に反しますよね?なぜ完璧なテキストを画像に変換する必要があるのでしょうか?

Karpathy は4つの理由を提示しています:

1. 優れた情報圧縮効率

DeepSeek-OCR は驚くべき指標を明らかにしました:100個のビジュアルトークンで、1000個のテキストトークンに相当する内容を正確に「解凍」できます

これは AI に食事を与えるようなものです:

  • テキスト入力:冗長な「取扱説明書」(1000トークン)
  • ピクセル入力:コンパクトな「情報エナジーバー」(100トークン)

コンテキストウィンドウが短いほど、効率が高まります。Karpathy が指摘したように:「より多くの情報圧縮 => より短いコンテキストウィンドウ、より高い効率」。

2. より汎用的で忠実な情報ストリーム

AI にウェブページを読んでもらう場合を想像してください。

現在のテキスト入力:電話でウェブページの内容を AI に読み上げるようなもの。すべてのビジュアル情報——太字、色、フォント、レイアウト——が失われます。

ピクセル入力:AI にスクリーンショットを直接送るようなもの。

Karpathy はピクセルが「大幅に汎用的な情報ストリーム」を提供すると主張しています——テキストだけでなく:

  • 太字テキスト
  • 色付きテキスト
  • 任意の画像

これが「情報忠実性」の利点です:あなたが見るものを、AI も「見る」ことができます。

3. 双方向注意メカニズムの解放

これはより技術的な利点です。

現在のテキストトークンは通常自己回帰注意(autoregressive attention)を使用し、モデルは「左から右へ」順次処理し、「振り返る」ことができません。

ピクセル入力は双方向注意(bidirectional attention)を容易に可能にします——人間の読書のように、まずページ全体を見渡し、全体構造を把握してから詳細に焦点を当てます。

Karpathy はこのアプローチが「はるかに強力」(a lot more powerful)だと考えています。

4. トークナイザーの削除

これは Karpathy の最も情熱的な部分です。彼は率直に宣言しました:

入力時のトークナイザーを削除せよ!! トークナイザーがどれほど嫌いか、すでに愚痴をこぼしました。トークナイザーは醜く、分離され、エンドツーエンドではありません。Unicode エンコーディング、バイトエンコーディングのすべての醜さを『インポート』し、歴史的負債を継承し、セキュリティ/脱獄リスク(例:継続バイト)をもたらします... トークナイザーは消えなければなりません。

なぜ Karpathy はトークナイザーをこれほど嫌っているのでしょうか?

トークナイザーの五つの罪:

罪その1:情報認識の歪曲

笑顔の絵文字「😀」:

  • トークナイザー経由:AI は [tok482] のような暗号のような内部コードを見ます。AI は視覚から学んだ「顔」と「笑顔」に関する知識(転移学習)を活用できません。
  • ピクセル入力経由:AI の「視覚」部分はすぐに認識します:ああ、これは笑顔の顔だ。

罪その2:見た目が同じ文字でも内部的に異なる

ラテン文字「A」とギリシャ文字「Α」(アルファ)は人間の目にはほぼ同じに見えますが、トークナイザーは完全に異なるトークンにマッピングします。

罪その3:歴史的負債

Unicode、バイトエンコーディング、さまざまな文字セット... トークナイザーはこれらすべての「レガシー問題」を継承し、モデルにタスク無関係の複雑さを処理させます。

罪その4:セキュリティリスク

Karpathy が言及した「継続バイト」:攻撃者はトークナイザーのエンコーディング特性を悪用して、安全チェックを回避する悪意のある入力を構築できます(脱獄)。

罪その5:エンドツーエンドではない

トークナイザーは「仲介者」で、「生テキスト」と「AI の脳」の間に強制的に挿入され、深層学習の「エンドツーエンド学習」哲学に違反しています。

Karpathy の判決:トークナイザーは消えなければならない

新しい AI アーキテクチャビジョン:「目で入力、口で出力」

この分析に基づいて、Karpathy は新しい AI アーキテクチャを構想しています:

入力(ユーザーメッセージ):画像(ピクセル)のみを受信 出力(アシスタント応答):テキストのまま

なぜこの設計なのでしょうか?

入力:なぜピクセル?

  1. OCR は多くの「視覚→テキスト」タスクの1つに過ぎません。他にはチャート理解、手書き認識、シーンテキスト抽出などがあります...
  2. 「テキスト→テキスト」タスクは「視覚→テキスト」タスクになり得ますが、逆は不可能です

言い換えれば:視覚入力はより普遍的な「スーパーセット」です。

出力:なぜまだテキスト?

Karpathy は認めています:「ピクセルを現実的に出力する方法はあまり明確ではありません...またはそれが望ましいかどうか。

簡単な理由:

  • 入力タスク:「画像を理解する」は比較的簡単で、成熟したビジョンエンコーダーがあります。
  • 出力タスク:「リアルな画像を生成する」は非常に困難で、生成モデルが必要で、高コスト、不安定な結果。

さらに、ほとんどのアプリケーション(チャットボット、ドキュメント分析、コード生成)では、ユーザーはテキスト回答を必要とし、画像出力ではありません。

したがって、**「目で入力(ピクセル)、口で出力(テキスト)」**は視覚入力の利点を活用しながら、テキスト出力の実用性を維持します。

これは DeepSeek-OCR とどう関係しているのか?

Karpathy は DeepSeek-OCR を「概念実証」(Proof-of-Concept)と見なしています:

実験的に証明されました:「視覚」を使って「読む」ことは実現可能で、潜在的により効率的です。

DeepSeek-OCR の主要指標:

  • 10倍圧縮97%の精度
  • 100トークンが GOT-OCR2.0 の256トークンを上回る

これは単に「テキスト→テキスト」が「視覚→テキスト」になるだけではありません。根本的な変化を示唆しています——AI の主要な情報ゲートウェイが「言語」から「視覚」へ移行している

コミュニティの反応:「理にかなっている」から「試してみたい」へ

Karpathy の視点は AI コミュニティで激しい議論を引き起こしました。

中国のテックブロガー Baoyu (@dotey) は詳細な解釈を提供し、Karpathy の核心的な論点をまとめました:

  1. 破壊的アイデア:最初から AI に間違った「食事」を与えていた
  2. 効率性:ピクセルは「高密度情報バー」、より短いコンテキストウィンドウ
  3. 忠実性:ピクセル入力はスタイリング、レイアウトのビジュアル情報を保持
  4. トークナイザーのバイパス:AI に「見ることは信じること」を、トークナイザーの歪曲を回避
  5. 入力シフト:AI の主要ゲートウェイが「言語」から「視覚」へ移行

Baoyu の解釈は中国の AI コミュニティで広く拡散し、開発者たちに「テキストトークンは本当に最適なのか?」と問いかけました。

Karpathy 自身も、今や「画像入力のみの nanochat バージョンを作りたい衝動と戦わなければならない」と認めました。

このプログラマーユーモアは現実を反映しています:トップ AI 研究者として無数の「真剣なプロジェクト」を抱える中、Karpathy はこの DeepSeek-OCR の「副作用」があまりにも魅力的で、即座に実験したくなるのを抑えられないのです。

何が変わるのか?

Karpathy のビジョンが実現すれば、AI アーキテクチャは根本的に変革する可能性があります:

1. マルチモーダルモデルがデフォルトに

未来の「言語モデル」は純粋に言語を処理するのではなく、本質的に視覚理解能力を持つかもしれません。

2. コンテキストウィンドウ問題の緩和

100個のビジュアルトークンが1000個のテキストトークンを置き換えられるなら、10万トークンを処理できるモデルは理論上100万トークン相当の情報を処理できます。

3. トークナイザーが本当に消えるかも

少なくとも入力では、未来のモデルはピクセルを直接受信し、トークン化プロセス全体をスキップするかもしれません。

4. AI の「記憶」メカニズムの再設計

DeepSeek-OCR の「記憶忘却メカニズム」(最近の情報には高解像度画像、遠い情報には低解像度画像)が長コンテキスト問題を解決するかもしれません。

結論:「OCR 論文」がパラダイム思考を引き起こす

DeepSeek-OCR は光学文字認識に関する技術論文でしたが、Karpathy のコメントにより、「AI はどのように世界を認識すべきか」に関するパラダイム議論へと進化しました。

Karpathy が述べたように:

「OCR は多くの有用な視覚→テキストタスクの1つに過ぎません。そしてテキスト→テキストタスクは視覚→テキストタスクにできます。逆は不可能です。」

おそらく私たちは本当に最初から AI に間違った「食事」を与えていたのです。

おそらく未来の AI は人間のようであるべきです——「目」で世界を「見る」、単に「耳」で言葉を「聞く」だけではなく

これは単なる技術最適化ではありません——認知革命です。

参考資料:

About Ben / 浮浮酱

WaytoAGI 作者

https://deepseekocr.app
Advertisement