老黄不演了！英伟达强娶“速度之王”Groq：抛弃GPU搞LPU，推理芯片也要玩“闪电战”？

英伟达不打算在GPU上一棵树吊死了，直接祭出200亿美元“钞能力”收编Groq，要把快到离谱的LPU架构塞进自家全家桶。OpenAI已经排队领号当了“首席体验官”，看来老黄这次是要在推理市场把对手的路全部堵死。

世界第一也着急，英伟达这是要给自家架构“换血”了！

在即将开幕的3月圣何塞GTC大会上，黄仁勋准备掏出来的秘密武器不是新一代“煤气灶”显卡，而是一套全新的AI推理系统。最劲爆的消息是，这颗芯片的核心架构居然不是英伟达自家的老字号GPU，而是引进了外部“外援”——来自Groq团队的LPU（语言处理单元）架构。

芯片还没正式露面，首位大客户已经把支票本准备好了。刚刚完成1100亿美元巨额融资、富到流油的OpenAI，将成为第一个吃螃蟹的人。

大家可能会纳闷，堂堂英伟达，为什么要“弃暗投明”去买别人的架构？答案其实很简单：术业有专攻。

以前大家都在搞大模型训练，那是“大力出奇迹”的阶段，GPU凭借强大的并行计算能力，像是一支浩浩荡荡的搬运大军，虽然慢点但力气大。但现在，AI应用已经进入了“推理时代”，用户问一句话，AI得秒回。这时候，GPU架构的短板就露出来了。

GPU就像是一个巨大的中央仓库，算力核心（计算单元）和货物（数据）之间隔着老远，每次计算都要在HBM（高带宽内存）之间来回折腾，这在技术上叫“存算分离”产生的瓶颈。

而Groq的LPU架构走的是“贴身服务”路线¹。它采用了高密度片上SRAM，把数据直接贴在算力核心旁边。这种“数据贴着算力跑”的设计，极大缩短了数据搬运的路径。在低延迟的推理场景下，LPU理论上能比传统的GPU快上整整100倍。

这就不难理解为什么老黄要在去年砸下约200亿美元，通过“acqui-hire”（收购式招聘）的方式，把Google TPU之父Jonathan Ross和他的Groq精英团队直接打包带走²。老黄的逻辑一向很硬核：只要方案够成熟、能直接上战场，花钱买时间就是最高效的ROI。

老黄这次大转身，背后的危机感其实已经溢出屏幕了。

随着AI Agent（智能体）的爆发，算力需求正在从“训练优先”转向“推理优先”。推理不再是训练后的赠品，而是频率更高、规模更大的长期负载。很多大佬已经开始为了省钱和提速，悄悄摸索“去英伟达化”了：

OpenAI与Cerebras： 虽然和老黄关系铁，但OpenAI前阵子刚和Cerebras签了数十亿美元的订单，看中的就是人家的推理优化¹。
国产算力的围堵： DeepSeek最近传出绕过英伟达，直接在华为昇腾平台上完成模型迁移的消息，甚至有预测称到2026年，英伟达在中国市场的份额会被挤压到个位数³。
硅谷大厂的背叛： Meta找AMD订了货，亚马逊在推自家的Trainium芯片，谷歌则守着TPU虎视眈眈¹。

面对这种“反英伟达联盟”的合围，老黄必须给出一个无法拒绝的答案。而融合了Groq血统的新推理芯片，就是他用来捍卫王座的重锤。这不仅仅是一款芯片的发布，更是英伟达对整个AI算力格局重塑的回应。

除了这枚神秘的LPU推理芯片，今年的GTC大会可能还有更多“前所未见”的狠货。

外界普遍猜测，基于Rubin架构的新一代GPU和Feynman系列架构也将悉数亮相。甚至有人在期待，那些被老黄“跳票”已久的消费级显卡能不能也给点惊喜？

不管怎样，英伟达大规模引入外部架构这招，确实走得既大胆又务实。当“唯快不破”成为AI推理市场的唯一信条时，老黄用200亿美元买回来的不仅仅是技术，更是通往下一个时代的入场券。

正如《华盛顿邮报》所评价的：这是AI浪潮以来，英伟达第一次在核心硬件层面正面硬刚架构挑战¹。至于这一仗能不能赢得漂亮，就看下个月GTC大会上，这颗芯片能不能让全场尖叫了。

引用