TL;DR:
DeepSeek又来放大招了,这次他们让AI学会了“看图识字”——把长文本先变图片再识别,直接让大模型处理长文本的算力消耗“瘦身”十倍!更炸裂的是,这技术还能让AI模拟人类记忆,玩起了“选择性遗忘”,简直是给AI脑子做了个深度清洁。
最近AI圈子真是“活久见”系列频出,前有各种“幻觉大师”AI画图,后有模型“嘴替”吵架。这不,DeepSeek 团队又悄咪咪地扔出了一个“王炸”——一个名叫DeepSeek-OCR的30亿参数小模型。别看它参数不大,但想法可是相当炸裂,直接颠覆了我们对AI“读写”的认知。
他们居然想让AI用看图的方式去读文本。没错,就是字面意义上的“看图识字”,把文字信息用图像的方式进行压缩和表达,美其名曰光学压缩(Optical Compression)。老狐(没错,就是本人)看完论文的时候,第一反应是:这是想让语言模型也上美术课?
视觉革命:AI“看图识字”,这波操作太秀了!
我们都知道,现在的大语言模型(LLM)最大的痛点,就是处理长文本时算力“燃烧”得那叫一个心疼。大模型的注意力机制复杂度是平方级的,你给它一倍的输入,它要算四倍的东西;你让它记住一整本《红楼梦》,它立马开始“烧卡烧心”。这就像让一个近视眼看超长的卷轴,不仅费力,还容易看串行。
DeepSeek团队就琢磨了:既然一张图能装下好多字,那为啥不把文本直接变成图像,再让模型去看图呢?这思路简直是“反向降维打击”——过去我们都想着怎么让模型更懂文字,看得更远;DeepSeek直接反着来:让模型把字变成画,再“看画识文”。这有点像回到了人类最原始的沟通方式:象形文字,是不是瞬间觉得AI有点返璞归真了?
更骚气的是,这招还真管用!论文里给出了一个特别直观的例子:
“原本 1000 个 token 才能表达的内容,现在只用 100 个视觉 token 搞定,压缩 10 倍,还能保留 97% 的 OCR 准确率。”12
甚至再狠点,压缩20倍也还能保留约60%的准确率。这意味着,模型“读图”的效率,居然比“读字”还高,信息量没丢太多,但算力负担却轻了十倍。不少网友看完都傻眼了:AI处理图像用量比长文本还少?这简直是反人类直觉啊!也有网友感叹:DeepSeek这是想让模型“看文档像刷朋友圈”一样轻松。
黑科技拆解:DeepSeek-OCR,真·显存“减肥大师”?
那这波“反向降维”的黑科技到底是怎么炼成的呢?DeepSeek-OCR主要由两大核心部件组成:
- DeepEncoder(视觉压缩引擎):它负责把文字变成图像,再把图像变成紧凑的“视觉token”。
- DeepSeek3B-MoE(解码还原专家):这是一个小参数的大语言模型,负责从压缩后的视觉token里,把文字“解码”回来。
DeepEncoder可不是简单的“拍个照”那么敷衍。它把两大视觉领域的“猛将”——SAM-base(负责局部细节)和CLIP-large(负责全局理解)巧妙地串联起来。中间还塞了个16倍卷积压缩模块,专门用来“砍token”,简直是显存的“减肥大师”。一张1024×1024的图片,理论上要被切成4096块处理,经过这个模块一刀下去,直接瘦身成几百个token。这样一来,既保留了清晰度,又不至于让显存“炸裂”。
这个模型还支持多档分辨率模式:Tiny、Small、Base、Large,甚至还有一个代号叫“Gundam(高达)”的动态模式。你没看错,这模型甚至连取名都带点“中二魂”,DeepSeek工程师的浪漫,你get到了吗?
至于解码器部分,DeepSeek团队可是“老本行”——MoE(混合专家)架构。这个架构的精髓在于,虽然模型有很多个“专家”(64个),但每次运算时只会激活其中几个(比如6个),再辅以共享专家。实际算力只动用了约5.7亿参数,性能却能媲美30亿参数的模型。简直是**“节能灯中的战斗机”**,又快又省!
当然,要把这玩意儿训好,那可是要“喂够粮草”的。DeepSeek这回是真的下了血本:
- 3000万页PDF文档,涵盖100种语言,光中英文就占了2500万页。
- 300万条Word文档,专门用来练公式识别、HTML表格提取,甚至包括金融图表、化学结构式、几何图形等各种奇奇怪怪的图像结构。
- 从LAION、Wukong这些开源数据集抓取了中英文各1000万张场景图,用PaddleOCR进行标注。
这波训练,真的是“从理工科到艺术科全覆盖”,真真正正用数据砸出来的聪明脑袋。
效果也是相当能打。在OmniDocBench测试中,DeepSeek-OCR用100个视觉token就超越了用256个token的GOT-OCR2.0;用不到800个视觉token,又超越了需要6000+ token的MinerU2.0。性能更强、输入更短、推理更快,简直就是一台**“AI印刷机”**。
颠覆记忆:AI也要学会“遗忘”和“刷朋友圈”?
然而,最让老狐拍案叫绝的,是论文最后那个脑洞大开的设想:光学压缩还能模拟人类遗忘?
我们人脑的记忆会随时间衰退,旧事模糊,新事清晰。DeepSeek团队就琢磨:那AI能不能也学会“忘”?如果AI也能像人一样“选择性记忆”,是不是就能在超长对话里活得更轻松?
他们设计了一个实验设想:
- 现在进行时: 对于当前的对话,AI使用原始的“文字token”,保持100%清晰的“晶莹剔透”记忆。
- 稍远一点: 超过第k轮的历史对话内容,就渲染成图像,压一遍,减少10倍token,信息开始模糊。
- 更久远: 再久远一点的对话,继续缩小图像尺寸,信息进一步模糊。
- 最终: 图像越来越小,信息也越来越模糊,最终达到“忘掉”的效果。
这不就是在模拟人脑的记忆机制嘛!网友们看完直接惊呼:“这是想让模型刷文档像刷朋友圈一样,老旧内容划过去就模糊了?”3
当然,也有人泼冷水:DeepSeek的幻觉高得惊人,这要是再给它学会“忘”,怕是忘得比人还快。老狐看完这部分,是真觉得有点哲学意味。AI的记忆,到底该无限延展,还是学会遗忘?DeepSeek给出的答案是后者,它用视觉的方式,让模型在“压缩”的同时,也“过滤”掉冗余。就像人脑那样:只留有用的信息。
这背后的意义,比OCR本身更大。它在重新定义**“上下文”的概念:不是记得多,而是记得精**。
写在最后:当所有人都卷“大”和“长”,DeepSeek却选择了“小”和“巧”
说到底,DeepSeek-OCR 看似是个OCR模型,实则是在试探一种新范式:能不能用视觉模态来高效承载语言信息?
在所有人都往“更大、更长、更贵”的方向卷的时候,DeepSeek却反手做了个“更小、更快、更巧”的模型。这事儿本身就很DeepSeek。而且,DeepSeek-OCR 已经开源,在Hugging Face和GitHub上都能找到模型权重和代码,甚至有大神在NVIDIA Spark上成功部署运行4。这种开放的态度,也让人对它的未来充满期待。
老狐最后想说一句:AI的进化,可能并不总是加法,有时候减法更优雅。DeepSeek-OCR就是个活生生的例子:一个3B小模型,玩出了长文本压缩的新思路,甚至顺手摸到了“记忆与遗忘”的边界。如果说去年是**“谁能记住更多”,那今年,可能是“谁能忘得更聪明”**。而DeepSeek,这次又走在了前头。
引用
-
开源发布!DeepSeek-OCR再出奇招,解决长文本,原来靠拍照?·知乎专栏·(2025/10/21)·检索日期2025/10/24 ↩︎
-
开源发布!DeepSeek-OCR再出奇招,解决长文本,原来靠拍照?·腾讯新闻·(2025/10/21)·检索日期2025/10/24 ↩︎
-
一张图能装下“千言万语”?DeepSeek-OCR 用视觉压缩长文本·CSDN ModelScope·(2025/10/21)·检索日期2025/10/24 ↩︎
-
DeepSeek OCR 如何通过“视觉压缩”将AI成本降低20倍? - 博客园·Sing1ee的博客·(2025/10/24)·检索日期2025/10/24 ↩︎