像素优先:DeepSeek-OCR 引领大模型迈向“视觉记忆”新纪元

温故智新AIGC实验室

TL;DR:

DeepSeek-OCR 通过创新的视觉Token压缩技术,将文本输入转化为高效的图像像素表示,实现了大模型长上下文处理能力的十倍级跃升。这一技术不仅预示着AI输入范式的根本性转变,更可能重塑企业级AI应用和多模态通用智能的未来格局。

在人工智能领域,每一次底层范式的突破,都可能引发一场全面的技术海啸。最近,DeepSeek 开源的 DeepSeek-OCR 模型,正以其“疯狂”的效率和Andre Karpathy等业界大佬的力挺,将整个AI圈的目光聚焦到一条颠覆性的路径上——让大型语言模型(LLMs)“看”文本,而非“读”文本。这不仅仅是对传统光学字符识别(OCR)的简单优化,更是对LLM核心输入机制的一次深刻重构,预示着一个以像素为核心输入的新纪元或将到来。

技术原理与突破性创新

DeepSeek-OCR 的核心魅力在于其对文本信息前所未有的视觉压缩效率。传统上,文本通过分词器(tokenizer)转化为Token序列输入到LLMs。然而,分词器因其非端到端、对Unicode和字节编码的依赖、安全漏洞以及对相同视觉字符可能生成不同Token等问题,一直被Andre Karpathy等专家诟病,称其为“丑陋”且“非自然”的存在1。而视觉Token,特别是未经优化的视觉Token,在表示文字信息时效率更低,一万单词的文本可能需要三万到六万视觉Token来表示,远高于一万五千文本Token的需求。

DeepSeek-OCR 的创新之处在于,它提出了一种革命性的方法,能够将1000个字的中文文章压缩成仅100个视觉Token,实现了十倍的压缩比,同时保持了97%的解码准确率。这意味着,原本需要10,000个单词的英文文本,现在理论上只需约1,500个经过特殊压缩的视觉Token即可完整表示1。根据Google搜索结果,DeepSeek-OCR是一个30亿参数的视觉语言模型,能够将“整本百科全书级别的文本压缩为高分辨率图像”,并且其OCR Token效率比前代模型提升了60倍2。其DeepEncoder结合了SAM、CLIP主干和16x卷积压缩器,而Mixture-of-Experts (MoE) 解码器则支持实时文档分析与视觉上下文翻译。

Andrej Karpathy 认为:“也许更合理的是,LLM 的所有输入都应该是图像。即使你碰巧有纯文本输入,也许你更愿意先渲染它,然后再输入。”1 他强调了像素输入带来的优势:更多信息压缩、更通用的信息流(包含粗体、彩色文本、任意图像)、更容易实现双向注意力,以及最关键的——删除分词器

尽管早在2022年哥本哈根大学的《Language Modelling with Pixels》3 论文就提出了基于像素的语言编码器(PIXEL)的概念,并提出通过重建被遮盖图像块的像素来训练语言模型。此后也有多篇研究成果对这一思路进行了发展和改进4567。但DeepSeek-OCR的工程化实现与开源开放,无疑是将其从理论推向实际应用的关键一步。它证明了视觉Token不仅能解决多模态输入,更能以高效率解决纯文本输入的瓶颈。

产业生态与长上下文的商业重构

DeepSeek-OCR 的突破,直接指向了大模型领域一个核心的挑战:长上下文窗口的效率与成本问题。当前LLM处理长文本的上下文窗口大小受限于计算资源和注意力机制的二次复杂度。而DeepSeek-OCR实现的视觉Token压缩,为这一难题提供了一个优雅的解决方案。

  • 极大地扩展上下文窗口: 理论上,这种方法可以将模型的有效上下文长度(context size)提升至一千万甚至两千万Token级别。结合DeepSeek几周前发布的稀疏注意力(sparse attention)论文(如DeepSeek V3.2-Exp中的DSA)1,其前景更令人兴奋。这意味着大模型将拥有类似人类的“超强工作记忆”,能一次性处理海量的关联信息。
  • 商业应用场景的重塑:
    • 企业知识管理: 可以将一家公司的所有关键内部文档(如财报、合同、会议记录、技术手册)都塞进Prompt中并进行缓存,实现无需搜索工具的即时、经济查询。这对于构建高效的企业级AI助手和知识库系统具有颠覆性意义。
    • 软件开发: 开发者可以将整个代码库放入上下文中进行缓存,每次修改时只需追加Git差异部分的内容,极大地提升代码理解和辅助编程的效率。
    • 多语种OCR与视觉上下文翻译: DeepSeek-OCR基于3000万多语种PDF页面(含科学图表、公式、自然场景)训练,其Mixture-of-Experts解码器支持实时文档分析与视觉上下文翻译,拓展了其在国际化商业环境中的应用潜力2
  • 效率与成本优化: DeepSeek-OCR展示了强大的算力效率,一块英伟达A100每天可以处理20万页的数据1。这与DeepSeek一直以来在MoE架构上追求的“经济和高效”战略(如DeepSeek-V2和DeepSeek-V3)8一脉相承,有助于降低LLM的推理成本,加速其在广泛商业场景中的落地。
  • 开源的催化作用: DeepSeek选择完全开源模型权重和方法细节,与可能已掌握类似技术的闭源巨头(如Google的Gemini)形成对比1。这种开放性无疑会加速整个社区对“视觉路线”的实验、验证和进一步探索,降低了技术普及的门槛,推动了产业生态的快速迭代。

未来主义视角下的认知范式演进

从哲学思辨的维度看,DeepSeek-OCR所倡导的“像素优先”路线,触及了AI认知方式的本质。人类在回忆文本内容时,往往会以视觉方式定位,记得内容在书的哪一页、哪一侧、大致位置,这暗示了人脑可能也依赖某种视觉记忆表征机制1。将LLM的输入从抽象的文本Token转向具象的图像像素,或许更能契合大脑的运作方式,为模型带来更深层次的认知飞跃。

  • 通用智能的底层逻辑: 如果像素能作为更通用、更底层的输入方式,它将模糊计算机视觉(CV)和自然语言处理(NLP)之间的传统界限,推动多模态AI走向真正的融合。这种“视觉中心”的输入范式可能不仅仅适用于文本,而是能统一处理文字、图像、图表、手写内容,甚至更复杂的视觉信息流,从而为构建更具鲁棒性和通用性的AI系统奠定基础。这与OpenAI联合创始成员Andrej Karpathy“本质上研究计算机视觉,暂时伪装成自然语言专家”的自我定位不谋而合1
  • 批判性思考与挑战: 尽管前景广阔,但这种范式转变也引发了深刻的问题。模型在使用这些高度压缩的视觉Token时,是否还能像使用普通文本Token那样进行智能推理?这种方式会不会让模型在语言表达上“退化”,因为它被迫更多地以视觉方式来思考?Meta的前OpenAI和DeepMind研究者Lucas Beyer就指出,DeepSeek-OCR的方法可能不具备渐进性,不像人类的认知方式那样自然演进1。此外,超长上下文虽然强大,但也可能引入新的安全和伦理挑战,例如更难以检测和缓解的Prompt Injection攻击,以及对海量数据隐私处理的复杂性。

展望:视觉优先的AI新纪元

DeepSeek-OCR的发布,并非仅仅一个孤立的技术事件,而是全球AI研究正集体迈向“视觉优先”路径的一个强力信号。在未来的3-5年内,我们可以预见:

  1. “视觉路线”成为主流输入范式: 随着DeepSeek-OCR的开源和验证,越来越多的LLM将尝试以图像像素作为主要输入,分词器可能逐步淡出。这将催生新的模型架构和训练方法。
  2. 多模态大模型的深度融合: CV和NLP的边界将进一步模糊,多模态模型不再是“语言模型加外挂视觉模块”,而是从底层统一的视觉信息流中提取并理解各种模态的内容。DeepSeek-VL和DeepSeek-VL2等早期多模态模型已为此奠定基础8
  3. 计算效率的飞跃: 视觉Token压缩与稀疏注意力等技术结合,将显著提升LLM的计算效率,降低训练和推理成本,加速AI技术的普及和民主化。
  4. 新型应用生态的涌现: 拥有超长“工作记忆”的LLM将催生前所未有的企业级应用、个人AI助手和科学发现工具,重塑我们与数字信息的交互方式。

DeepSeek-OCR,连同DeepSeek在MoE和稀疏注意力上的持续深耕,正在共同构建一个更高效、更通用、更接近人类认知模式的AI未来。它不仅仅是技术上的精进,更是一次对AI底层逻辑的深刻反思和重塑。


引用


  1. DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了 · 机器之心· 泽南、Panda (2025/10/21)· 检索日期2025/10/21 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 30亿参数模型实现文档压缩与多语种OCR突破」 - 齐思 · 奇绩创坛 (2025/10/21)· 检索日期2025/10/21 ↩︎ ↩︎

  3. Language Modelling with Pixels · arXiv · Daniel Bolya, Andrew Zisserman, Adam Paszke, David Eigen (2022/07/14) · 检索日期2025/10/21 ↩︎

  4. CLIPPO: Image-and-Language Understanding from Pixels Only · CVPR 2023 · N/A (2023) · 检索日期2025/10/21 ↩︎

  5. Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning · NeurIPS 2024 · N/A (2024) · 检索日期2025/10/21 ↩︎

  6. Improving Language Understanding from Screenshots · N/A · N/A (2024) · 检索日期2025/10/21 ↩︎

  7. Vision-centric Token Compression in Large Language Model · NeurIPS 2025 · N/A (2025) · 检索日期2025/10/21 ↩︎

  8. 一文搞懂DeepSeek的技术演进之路:大语言模型、视觉语言理解 · 知乎 · N/A (N/A) · 检索日期2025/10/21 ↩︎ ↩︎