DeepSeek的“王炸”炸红A股:国产芯片终于能“满血开挂”了?

温故智新AIGC实验室

TL;DR:

DeepSeek悄悄“剧透”了对国产芯片的“神助攻”——UE8M0 FP8技术,直接让沉寂已久的A股算力概念股嗨翻天。这不仅是技术大突破,更是国产芯片“弯道超车”、摆脱“显卡焦虑”的“顿悟时刻”!

昨儿个,科技圈里有个“小道消息”像一颗小石子,不经意间被DeepSeek扔进了AI算力这片深水区。结果呢?今天它直接炸了个“王炸”,把A股市场炸得“满堂红”,超过2800只股票喜提“涨”字,算力、芯片板块更是集体“开香槟”!寒武纪涨停创历史新高,中芯国际大涨14%,海光信息也跟着“起飞”!1 这可不是股市“韭菜”的盲目冲动,而是大家嗅到了国产芯片在AI算力赛道上,终于有机会“扬眉吐气”的“新瓜”。DeepSeek这句看似轻描淡写的话,不光是技术“换挡”的信号,更是国内算力产业链罕见的“大合唱”时刻。

技术大揭秘:这“王炸”到底是个啥?

DeepSeek这次抛出的“炸弹”,核心就是所谓的“UE8M0 FP8”。听起来是不是有点儿像天书?别急,咱这就来给它“大卸八块”,看看这玩意儿到底有啥魔力。

首先说“FP8”,它其实是一种“数字压缩大法”,能把数据从常用的16位甚至32位,一口气压缩到只有8位来存储。你想想,AI大模型训练和推理,那数据量简直是“天文数字”,显存带宽分分钟“爆表”。FP8的出现,就像是给数据做了个“瘦身美容”,能大大缓解显存带宽的压力。

但问题来了,DeepSeek的模型一直用FP8,可国内的芯片厂商,除了摩尔线程这种“先行者”的MTT S5000等极少数产品原生支持FP8,大部分还在用“老黄家”的FP16。这就好比你买了DeepSeek的“FP8定制跑车”,结果国产芯片只能用“FP16的普通汽油”,性能至少得“打个对折”。所以,大家嘴上说着支持国产,身体却很诚实地去“抱英伟达大腿”,原因就在这儿——国产芯片“起手”就已经不是“满血状态”了。

那咋办呢?总不能让国产芯片一直“憋屈”吧?

这就引出了“炸弹”的“灵魂”——“UE8M0”。这玩意儿厉害了,它属于一种叫做MX(Microscaling)的格式,由Meta、谷歌这些科技巨头“牵头”搞出来的。传统FP8有个“通病”,就像你打包一批衣服,为了压得小,可能会把衣服“压得皱巴巴”。因为它整个数据块共用一个缩放因子,容易导致精度损失或数值溢出。

而MX格式呢,就像是“把一批衣服分开打包”,它把大数据块切分成一个个小块,每个小块都有自己的“专属”8位轻量级缩放因子。这样一来,既能保持8位的存储效率,又能把动态范围扩展几十倍,简直是“鱼和熊掌兼得”!1

DeepSeek这次的“UE8M0”,正是MX格式里那个关键的“缩放因子”的数据格式。来,我们用个更形象的比喻:

UE8M0,就像AI芯片里的一个“快进键”,或者说是一个“只调档位、不调微刻度”的超级节能灯泡开关。它只管整体亮度的大方向,不纠结那些细枝末节,因此运行起来异常简单快捷,就像直接移动二进制小数点,避开了复杂的浮点运算,效率“蹭蹭”往上涨。1

这种“全指数”设计简直是开挂:

  • 硬件执行“神速”: 就像开了倍速,数据还原过程异常简单,能效大大提升。
  • 动态范围“巨大”: 从2⁻¹²⁷到2¹²⁸,这范围大到足以让任何数据块都被“恰到好处”地缩放,避免了数据“溢出”或“归零”的尴尬,错误率直接被按在了“地板上”。1

所以,划重点了!UE8M0 FP8组合拳一出,就意味着国产芯片在跑大模型,尤其是DeepSeek的模型时,能够实现——更快、更省、更能扛大数!

更“骚气”的是,虽然很多国产AI加速器还没原生支持E4M3/E5M2这种传统的FP8计算单元,但它们都在向支持MX格式的“块缩放”(Block Scaling)架构演进。UE8M0这个缩放因子,本身结构极简,不需要复杂的专用浮点乘法器就能实现,大大降低了硬件实现的门槛。

而且,它还为突破“内存墙”提供了“最优解”:与传统的32位缩放因子相比,UE8M0只需追加8位,就能高效管理32个FP8数据,带宽开销直接“腰斩”75%!这对于还在“追赶”HBM带宽的国产芯片来说,简直是“雪中送炭”,通过数据格式创新实现了“带宽减负”,妥妥的“架构级优化”,让国产芯片有机会在下一代竞争中实现“效能跃升”。1 这不光是技术兼容,更是通过前沿设计实现“差异化竞争力”的精准“卡位战”啊!

产业“顿悟”:国产芯片的“春天”真的来了?

DeepSeek这次的“隔空喊话”,可不是随便说说的技术选择,它更像是一次对产业生态的“官宣”——国产芯片,我挺你!想想看,中国“最好用”的大模型产品如果一直“死死”绑定英伟达,那画面想想都有点“细思极恐”。DeepSeek这波操作,可以看作是一次“渐进式解绑”,官方主动下场给国产芯片“搭台唱戏”,这格局,杠杠的!1

UE8M0 FP8的落地,也意味着国产算力厂商在浮点格式、编译器优化、训练框架适配这些“七七八八”的环节上,终于实现了“全栈打通”。这背后,可都是长期积累的软硬件协同“熬”出来的成果啊!

至于这波“炸弹”到底利好谁?其实根本不需要“玩猜谜游戏”,因为DeepSeek这次就是奔着“普惠”国产芯片生态去的。

  • 摩尔线程:作为国内首批原生支持FP8并大规模量产的GPU厂商,MTT S5000早已“摩拳擦掌”。凤凰网科技了解到,摩尔线程的MUSA架构本就原生支持硬件FP8张量加速计算,现在还能很好地支持UE8M0 FP8 Scale,相对于传统的FP16计算,性能直接“翻倍”,访存和通信效率也跟着“起飞”,存储容量利用率更是“优化到极致”。这不就是“天作之合”嘛!芯东西的报道也提到,摩尔线程的旗舰产品MTT S5000在满血跑DeepSeek R1模型推理时,速度达到了100 tokens/s,堪称行业领先。2 他们甚至通过软硬协同的深度算法优化和指令编排,让Per-Block FP8 GEMM计算效率与Per-Tensor几乎相当,差距不到2%。这波操作,简直是“逆天改命”!2
  • 寒武纪:今天涨得最猛的“大哥”之一。旗下的思元590以及最新的690系列,也都是支持FP8的“潜力股”。

所以说,DeepSeek这一个简单的官方留言,就像是给国产芯片打了一针“强心剂”。它不只是重新定义了未来大模型的算力效率,更是国产芯片厂商获得国际“话语权”的一个重要起点。资本市场的集体狂欢,有情绪“上头”的成分,但更多折射出一个清晰的信号:中国芯片,正迎来前所未有的“窗口期”,而这一次,它们真有机会“站上技术潮头”,不再是“望洋兴叹”的“陪跑者”了!

引用


  1. DeepSeek昨天悄悄扔的炸弹,今天爆了·凤凰网科技·凤凰网科技(2025/8/22)·检索日期2025/8/22 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 摩尔线程技术分享日干货!打造“AI超级工厂”、原生支持FP8 - 智东西·芯东西·ZeR0(2025/7/26)·检索日期2025/8/22 ↩︎ ↩︎