Karpathy が語る:最初から AI に間違った「食事」を与えていた?
Karpathy の破壊的見解:ピクセルこそ LLM の理想的入力?
OCR についてではない OCR レビュー
2025年10月20日、DeepSeek が DeepSeek-OCR 論文を発表しました。通常、業界の専門家は「認識率の向上」や「どのモデルを上回ったか」といった指標に注目するでしょう。
しかし、元テスラ AI ディレクター・OpenAI 共同創設者の Andrej Karpathy は全く予想外の角度から評価しました。彼はツイートで次のように述べました:
「新しい DeepSeek-OCR 論文はとても気に入っています。良い OCR モデルです(DOTS より少し劣るかもしれませんが)、データ収集なども良いですが、それは重要ではありません。私にとってより興味深いのは(特に心の中では依然としてコンピュータビジョン研究者で、一時的に自然言語処理者を装っている者として):ピクセルはテキストよりも LLM の入力として優れているのか?入力時のテキストトークンは無駄で最悪なのか?」
この発言には多くの意味が込められています。Karpathy は本質的に手を振って言いました:「OCR 性能?重要ではない」と。彼が本当に興奮したのは、DeepSeek-OCR が無意識に検証した根本的な仮説——私たちは最初から AI に間違った「食事」を与えていたということです。
核心論点:なぜピクセルがテキストより優れているのか?
Karpathy は大胆なビジョンを提案しました:おそらくすべての LLM 入力は永遠に画像(ピクセル)のみであるべきです。純粋なテキスト入力がある場合でも、レンダリングしてから入力する方が良いかもしれません。
直感に反しますよね?なぜ完璧なテキストを画像に変換する必要があるのでしょうか?
Karpathy は4つの理由を提示しています:
1. 優れた情報圧縮効率
DeepSeek-OCR は驚くべき指標を明らかにしました:100個のビジュアルトークンで、1000個のテキストトークンに相当する内容を正確に「解凍」できます。
これは AI に食事を与えるようなものです:
- テキスト入力:冗長な「取扱説明書」(1000トークン)
- ピクセル入力:コンパクトな「情報エナジーバー」(100トークン)
コンテキストウィンドウが短いほど、効率が高まります。Karpathy が指摘したように:「より多くの情報圧縮 => より短いコンテキストウィンドウ、より高い効率」。
2. より汎用的で忠実な情報ストリーム
AI にウェブページを読んでもらう場合を想像してください。
現在のテキスト入力:電話でウェブページの内容を AI に読み上げるようなもの。すべてのビジュアル情報——太字、色、フォント、レイアウト——が失われます。
ピクセル入力:AI にスクリーンショットを直接送るようなもの。
Karpathy はピクセルが「大幅に汎用的な情報ストリーム」を提供すると主張しています——テキストだけでなく:
- 太字テキスト
- 色付きテキスト
- 任意の画像
これが「情報忠実性」の利点です:あなたが見るものを、AI も「見る」ことができます。
3. 双方向注意メカニズムの解放
これはより技術的な利点です。
現在のテキストトークンは通常自己回帰注意(autoregressive attention)を使用し、モデルは「左から右へ」順次処理し、「振り返る」ことができません。
ピクセル入力は双方向注意(bidirectional attention)を容易に可能にします——人間の読書のように、まずページ全体を見渡し、全体構造を把握してから詳細に焦点を当てます。
Karpathy はこのアプローチが「はるかに強力」(a lot more powerful)だと考えています。
4. トークナイザーの削除
これは Karpathy の最も情熱的な部分です。彼は率直に宣言しました:
「入力時のトークナイザーを削除せよ!! トークナイザーがどれほど嫌いか、すでに愚痴をこぼしました。トークナイザーは醜く、分離され、エンドツーエンドではありません。Unicode エンコーディング、バイトエンコーディングのすべての醜さを『インポート』し、歴史的負債を継承し、セキュリティ/脱獄リスク(例:継続バイト)をもたらします... トークナイザーは消えなければなりません。」
なぜ Karpathy はトークナイザーをこれほど嫌っているのでしょうか?
トークナイザーの五つの罪:
罪その1:情報認識の歪曲
笑顔の絵文字「😀」:
- トークナイザー経由:AI は
[tok482]のような暗号のような内部コードを見ます。AI は視覚から学んだ「顔」と「笑顔」に関する知識(転移学習)を活用できません。 - ピクセル入力経由:AI の「視覚」部分はすぐに認識します:ああ、これは笑顔の顔だ。
罪その2:見た目が同じ文字でも内部的に異なる
ラテン文字「A」とギリシャ文字「Α」(アルファ)は人間の目にはほぼ同じに見えますが、トークナイザーは完全に異なるトークンにマッピングします。
罪その3:歴史的負債
Unicode、バイトエンコーディング、さまざまな文字セット... トークナイザーはこれらすべての「レガシー問題」を継承し、モデルにタスク無関係の複雑さを処理させます。
罪その4:セキュリティリスク
Karpathy が言及した「継続バイト」:攻撃者はトークナイザーのエンコーディング特性を悪用して、安全チェックを回避する悪意のある入力を構築できます(脱獄)。
罪その5:エンドツーエンドではない
トークナイザーは「仲介者」で、「生テキスト」と「AI の脳」の間に強制的に挿入され、深層学習の「エンドツーエンド学習」哲学に違反しています。
Karpathy の判決:トークナイザーは消えなければならない。
新しい AI アーキテクチャビジョン:「目で入力、口で出力」
この分析に基づいて、Karpathy は新しい AI アーキテクチャを構想しています:
入力(ユーザーメッセージ):画像(ピクセル)のみを受信 出力(アシスタント応答):テキストのまま
なぜこの設計なのでしょうか?
入力:なぜピクセル?
- OCR は多くの「視覚→テキスト」タスクの1つに過ぎません。他にはチャート理解、手書き認識、シーンテキスト抽出などがあります...
- 「テキスト→テキスト」タスクは「視覚→テキスト」タスクになり得ますが、逆は不可能です。
言い換えれば:視覚入力はより普遍的な「スーパーセット」です。
出力:なぜまだテキスト?
Karpathy は認めています:「ピクセルを現実的に出力する方法はあまり明確ではありません...またはそれが望ましいかどうか。」
簡単な理由:
- 入力タスク:「画像を理解する」は比較的簡単で、成熟したビジョンエンコーダーがあります。
- 出力タスク:「リアルな画像を生成する」は非常に困難で、生成モデルが必要で、高コスト、不安定な結果。
さらに、ほとんどのアプリケーション(チャットボット、ドキュメント分析、コード生成)では、ユーザーはテキスト回答を必要とし、画像出力ではありません。
したがって、**「目で入力(ピクセル)、口で出力(テキスト)」**は視覚入力の利点を活用しながら、テキスト出力の実用性を維持します。
これは DeepSeek-OCR とどう関係しているのか?
Karpathy は DeepSeek-OCR を「概念実証」(Proof-of-Concept)と見なしています:
実験的に証明されました:「視覚」を使って「読む」ことは実現可能で、潜在的により効率的です。
DeepSeek-OCR の主要指標:
- 10倍圧縮で97%の精度
- 100トークンが GOT-OCR2.0 の256トークンを上回る
これは単に「テキスト→テキスト」が「視覚→テキスト」になるだけではありません。根本的な変化を示唆しています——AI の主要な情報ゲートウェイが「言語」から「視覚」へ移行している。
コミュニティの反応:「理にかなっている」から「試してみたい」へ
Karpathy の視点は AI コミュニティで激しい議論を引き起こしました。
中国のテックブロガー Baoyu (@dotey) は詳細な解釈を提供し、Karpathy の核心的な論点をまとめました:
- 破壊的アイデア:最初から AI に間違った「食事」を与えていた
- 効率性:ピクセルは「高密度情報バー」、より短いコンテキストウィンドウ
- 忠実性:ピクセル入力はスタイリング、レイアウトのビジュアル情報を保持
- トークナイザーのバイパス:AI に「見ることは信じること」を、トークナイザーの歪曲を回避
- 入力シフト:AI の主要ゲートウェイが「言語」から「視覚」へ移行
Baoyu の解釈は中国の AI コミュニティで広く拡散し、開発者たちに「テキストトークンは本当に最適なのか?」と問いかけました。
Karpathy 自身も、今や「画像入力のみの nanochat バージョンを作りたい衝動と戦わなければならない」と認めました。
このプログラマーユーモアは現実を反映しています:トップ AI 研究者として無数の「真剣なプロジェクト」を抱える中、Karpathy はこの DeepSeek-OCR の「副作用」があまりにも魅力的で、即座に実験したくなるのを抑えられないのです。
何が変わるのか?
Karpathy のビジョンが実現すれば、AI アーキテクチャは根本的に変革する可能性があります:
1. マルチモーダルモデルがデフォルトに
未来の「言語モデル」は純粋に言語を処理するのではなく、本質的に視覚理解能力を持つかもしれません。
2. コンテキストウィンドウ問題の緩和
100個のビジュアルトークンが1000個のテキストトークンを置き換えられるなら、10万トークンを処理できるモデルは理論上100万トークン相当の情報を処理できます。
3. トークナイザーが本当に消えるかも
少なくとも入力では、未来のモデルはピクセルを直接受信し、トークン化プロセス全体をスキップするかもしれません。
4. AI の「記憶」メカニズムの再設計
DeepSeek-OCR の「記憶忘却メカニズム」(最近の情報には高解像度画像、遠い情報には低解像度画像)が長コンテキスト問題を解決するかもしれません。
結論:「OCR 論文」がパラダイム思考を引き起こす
DeepSeek-OCR は光学文字認識に関する技術論文でしたが、Karpathy のコメントにより、「AI はどのように世界を認識すべきか」に関するパラダイム議論へと進化しました。
Karpathy が述べたように:
「OCR は多くの有用な視覚→テキストタスクの1つに過ぎません。そしてテキスト→テキストタスクは視覚→テキストタスクにできます。逆は不可能です。」
おそらく私たちは本当に最初から AI に間違った「食事」を与えていたのです。
おそらく未来の AI は人間のようであるべきです——「目」で世界を「見る」、単に「耳」で言葉を「聞く」だけではなく。
これは単なる技術最適化ではありません——認知革命です。
参考資料:
- Andrej Karpathy のオリジナルツイート: https://x.com/karpathy/status/1980397031542989305
- Baoyu の解釈: https://x.com/dotey/status/1981156753191403606
- DeepSeek-OCR 論文: https://github.com/deepseek-ai/DeepSeek-OCR