Advertisement
Advertisement
Blog
Latest articles and insights about OCR technology
2025年10月24日
Karpathy 发声:也许我们一开始就喂错了"语料"给 AI?
AI 大神 Andrej Karpathy 对 DeepSeek-OCR 论文发表了重磅评论:真正重要的不是 OCR 性能,而是论文揭示的颠覆性想法——也许 LLM 的输入端从一开始就应该是"像素",而不是"文本"。这个观点在 AI 社区引发了热烈讨论。
Andrej KarpathyDeepSeek-OCRPixels vs TextLLM ArchitectureAI Commentary
2025年10月21日
DeepSeek-OCR:不只是OCR,更是上下文压缩的新范式
AI圈虽然天天卷,但很多模型越来越无聊。DeepSeek-OCR的出现改变了这一切——它用"上下文光学压缩"的思想,将文本压缩成图像,让AI像人类一样"一目十行"而非"一字一句"地理解内容。
DeepSeekContext CompressionAI MemoryParadigm Shift
2025年10月21日
AI的JPEG时刻:硅谷为何夸DeepSeek-OCR夸疯了?
DeepSeek最新开源的模型被硅谷夸疯了——3B规模、指数级效能变革、大道至简,甚至被认为把谷歌Gemini严防死守的商业机密开源了。Andrej Karpathy说:图像比文字更适合LLM输入。
DeepSeekSilicon ValleyAI InnovationJPEG Moment
2025年10月20日
DeepSeek-OCR:视觉Token的信息压缩革命
DeepSeek推出的OCR模型不仅仅是传统的文字识别工具,更是一场多模态AI的效率革命。通过"上下文光学压缩"技术,它用100个视觉token就能超越使用256个token的GOT-OCR2.0,实现了10倍压缩比下97%的准确率。
DeepSeekOCRVision-Language ModelAI Compression
2025年10月20日
1个视觉Token抵得上10个文本Token:DeepSeek-OCR的信息论启示
文字真的是信息压缩的最好方式吗?DeepSeek-OCR用实验数据给出了答案。通过DeepEncoder创新架构,这个380M参数的编码器实现了视觉token对文本token的10倍压缩,准确率仍达97%。
DeepSeekInformation TheoryVisual CompressionAI Architecture