DeepSeek的“王炸”炸红A股：国产芯片终于能“满血开挂”了？

TL;DR：

DeepSeek悄悄“剧透”了对国产芯片的“神助攻”——UE8M0 FP8技术，直接让沉寂已久的A股算力概念股嗨翻天。这不仅是技术大突破，更是国产芯片“弯道超车”、摆脱“显卡焦虑”的“顿悟时刻”！

昨儿个，科技圈里有个“小道消息”像一颗小石子，不经意间被DeepSeek扔进了AI算力这片深水区。结果呢？今天它直接炸了个“王炸”，把A股市场炸得“满堂红”，超过2800只股票喜提“涨”字，算力、芯片板块更是集体“开香槟”！寒武纪涨停创历史新高，中芯国际大涨14%，海光信息也跟着“起飞”！¹ 这可不是股市“韭菜”的盲目冲动，而是大家嗅到了国产芯片在AI算力赛道上，终于有机会“扬眉吐气”的“新瓜”。DeepSeek这句看似轻描淡写的话，不光是技术“换挡”的信号，更是国内算力产业链罕见的“大合唱”时刻。

技术大揭秘：这“王炸”到底是个啥？

DeepSeek这次抛出的“炸弹”，核心就是所谓的“UE8M0 FP8”。听起来是不是有点儿像天书？别急，咱这就来给它“大卸八块”，看看这玩意儿到底有啥魔力。

首先说“FP8”，它其实是一种“数字压缩大法”，能把数据从常用的16位甚至32位，一口气压缩到只有8位来存储。你想想，AI大模型训练和推理，那数据量简直是“天文数字”，显存带宽分分钟“爆表”。FP8的出现，就像是给数据做了个“瘦身美容”，能大大缓解显存带宽的压力。

但问题来了，DeepSeek的模型一直用FP8，可国内的芯片厂商，除了摩尔线程这种“先行者”的MTT S5000等极少数产品原生支持FP8，大部分还在用“老黄家”的FP16。这就好比你买了DeepSeek的“FP8定制跑车”，结果国产芯片只能用“FP16的普通汽油”，性能至少得“打个对折”。所以，大家嘴上说着支持国产，身体却很诚实地去“抱英伟达大腿”，原因就在这儿——国产芯片“起手”就已经不是“满血状态”了。

那咋办呢？总不能让国产芯片一直“憋屈”吧？

这就引出了“炸弹”的“灵魂”——“UE8M0”。这玩意儿厉害了，它属于一种叫做MX（Microscaling）的格式，由Meta、谷歌这些科技巨头“牵头”搞出来的。传统FP8有个“通病”，就像你打包一批衣服，为了压得小，可能会把衣服“压得皱巴巴”。因为它整个数据块共用一个缩放因子，容易导致精度损失或数值溢出。

而MX格式呢，就像是“把一批衣服分开打包”，它把大数据块切分成一个个小块，每个小块都有自己的“专属”8位轻量级缩放因子。这样一来，既能保持8位的存储效率，又能把动态范围扩展几十倍，简直是“鱼和熊掌兼得”！¹

DeepSeek这次的“UE8M0”，正是MX格式里那个关键的“缩放因子”的数据格式。来，我们用个更形象的比喻：

UE8M0，就像AI芯片里的一个“快进键”，或者说是一个“只调档位、不调微刻度”的超级节能灯泡开关。它只管整体亮度的大方向，不纠结那些细枝末节，因此运行起来异常简单快捷，就像直接移动二进制小数点，避开了复杂的浮点运算，效率“蹭蹭”往上涨。¹

这种“全指数”设计简直是开挂：

硬件执行“神速”： 就像开了倍速，数据还原过程异常简单，能效大大提升。
动态范围“巨大”： 从2⁻¹²⁷到2¹²⁸，这范围大到足以让任何数据块都被“恰到好处”地缩放，避免了数据“溢出”或“归零”的尴尬，错误率直接被按在了“地板上”。¹

所以，划重点了！UE8M0 FP8组合拳一出，就意味着国产芯片在跑大模型，尤其是DeepSeek的模型时，能够实现——更快、更省、更能扛大数！

更“骚气”的是，虽然很多国产AI加速器还没原生支持E4M3/E5M2这种传统的FP8计算单元，但它们都在向支持MX格式的“块缩放”（Block Scaling）架构演进。UE8M0这个缩放因子，本身结构极简，不需要复杂的专用浮点乘法器就能实现，大大降低了硬件实现的门槛。

而且，它还为突破“内存墙”提供了“最优解”：与传统的32位缩放因子相比，UE8M0只需追加8位，就能高效管理32个FP8数据，带宽开销直接“腰斩”75%！这对于还在“追赶”HBM带宽的国产芯片来说，简直是“雪中送炭”，通过数据格式创新实现了“带宽减负”，妥妥的“架构级优化”，让国产芯片有机会在下一代竞争中实现“效能跃升”。¹ 这不光是技术兼容，更是通过前沿设计实现“差异化竞争力”的精准“卡位战”啊！

产业“顿悟”：国产芯片的“春天”真的来了？

DeepSeek这次的“隔空喊话”，可不是随便说说的技术选择，它更像是一次对产业生态的“官宣”——国产芯片，我挺你！想想看，中国“最好用”的大模型产品如果一直“死死”绑定英伟达，那画面想想都有点“细思极恐”。DeepSeek这波操作，可以看作是一次“渐进式解绑”，官方主动下场给国产芯片“搭台唱戏”，这格局，杠杠的！¹

UE8M0 FP8的落地，也意味着国产算力厂商在浮点格式、编译器优化、训练框架适配这些“七七八八”的环节上，终于实现了“全栈打通”。这背后，可都是长期积累的软硬件协同“熬”出来的成果啊！

至于这波“炸弹”到底利好谁？其实根本不需要“玩猜谜游戏”，因为DeepSeek这次就是奔着“普惠”国产芯片生态去的。

摩尔线程：作为国内首批原生支持FP8并大规模量产的GPU厂商，MTT S5000早已“摩拳擦掌”。凤凰网科技了解到，摩尔线程的MUSA架构本就原生支持硬件FP8张量加速计算，现在还能很好地支持UE8M0 FP8 Scale，相对于传统的FP16计算，性能直接“翻倍”，访存和通信效率也跟着“起飞”，存储容量利用率更是“优化到极致”。这不就是“天作之合”嘛！芯东西的报道也提到，摩尔线程的旗舰产品MTT S5000在满血跑DeepSeek R1模型推理时，速度达到了100 tokens/s，堪称行业领先。² 他们甚至通过软硬协同的深度算法优化和指令编排，让Per-Block FP8 GEMM计算效率与Per-Tensor几乎相当，差距不到2%。这波操作，简直是“逆天改命”！²
寒武纪：今天涨得最猛的“大哥”之一。旗下的思元590以及最新的690系列，也都是支持FP8的“潜力股”。

所以说，DeepSeek这一个简单的官方留言，就像是给国产芯片打了一针“强心剂”。它不只是重新定义了未来大模型的算力效率，更是国产芯片厂商获得国际“话语权”的一个重要起点。资本市场的集体狂欢，有情绪“上头”的成分，但更多折射出一个清晰的信号：中国芯片，正迎来前所未有的“窗口期”，而这一次，它们真有机会“站上技术潮头”，不再是“望洋兴叹”的“陪跑者”了！

引用

DeepSeek昨天悄悄扔的炸弹，今天爆了·凤凰网科技·凤凰网科技（2025/8/22）·检索日期2025/8/22 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
摩尔线程技术分享日干货！打造“AI超级工厂”、原生支持FP8 - 智东西·芯东西·ZeR0（2025/7/26）·检索日期2025/8/22 ↩︎ ↩︎