Blog

Latest articles and insights about OCR technology

Karpathy 发声:也许我们一开始就喂错了"语料"给 AI?

AI 大神 Andrej Karpathy 对 DeepSeek-OCR 论文发表了重磅评论:真正重要的不是 OCR 性能,而是论文揭示的颠覆性想法——也许 LLM 的输入端从一开始就应该是"像素",而不是"文本"。这个观点在 AI 社区引发了热烈讨论。

AI圈虽然天天卷，但很多模型越来越无聊。DeepSeek-OCR的出现改变了这一切——它用"上下文光学压缩"的思想，将文本压缩成图像，让AI像人类一样"一目十行"而非"一字一句"地理解内容。

DeepSeek最新开源的模型被硅谷夸疯了——3B规模、指数级效能变革、大道至简，甚至被认为把谷歌Gemini严防死守的商业机密开源了。Andrej Karpathy说：图像比文字更适合LLM输入。

DeepSeek推出的OCR模型不仅仅是传统的文字识别工具，更是一场多模态AI的效率革命。通过"上下文光学压缩"技术，它用100个视觉token就能超越使用256个token的GOT-OCR2.0，实现了10倍压缩比下97%的准确率。

文字真的是信息压缩的最好方式吗？DeepSeek-OCR用实验数据给出了答案。通过DeepEncoder创新架构，这个380M参数的编码器实现了视觉token对文本token的10倍压缩，准确率仍达97%。