TL;DR:
英伟达不打算在GPU上一棵树吊死了,直接祭出200亿美元“钞能力”收编Groq,要把快到离谱的LPU架构塞进自家全家桶。OpenAI已经排队领号当了“首席体验官”,看来老黄这次是要在推理市场把对手的路全部堵死。
世界第一也着急,英伟达这是要给自家架构“换血”了!
在即将开幕的3月圣何塞GTC大会上,黄仁勋准备掏出来的秘密武器不是新一代“煤气灶”显卡,而是一套全新的AI推理系统。最劲爆的消息是,这颗芯片的核心架构居然不是英伟达自家的老字号GPU,而是引进了外部“外援”——来自Groq团队的LPU(语言处理单元)架构。
芯片还没正式露面,首位大客户已经把支票本准备好了。刚刚完成1100亿美元巨额融资、富到流油的OpenAI,将成为第一个吃螃蟹的人。
技术大揭秘:为什么GPU干不动推理了?
大家可能会纳闷,堂堂英伟达,为什么要“弃暗投明”去买别人的架构?答案其实很简单:术业有专攻。
以前大家都在搞大模型训练,那是“大力出奇迹”的阶段,GPU凭借强大的并行计算能力,像是一支浩浩荡荡的搬运大军,虽然慢点但力气大。但现在,AI应用已经进入了“推理时代”,用户问一句话,AI得秒回。这时候,GPU架构的短板就露出来了。
GPU就像是一个巨大的中央仓库,算力核心(计算单元)和货物(数据)之间隔着老远,每次计算都要在HBM(高带宽内存)之间来回折腾,这在技术上叫“存算分离”产生的瓶颈。
而Groq的LPU架构走的是“贴身服务”路线1。它采用了高密度片上SRAM,把数据直接贴在算力核心旁边。这种“数据贴着算力跑”的设计,极大缩短了数据搬运的路径。在低延迟的推理场景下,LPU理论上能比传统的GPU快上整整100倍。
这就不难理解为什么老黄要在去年砸下约200亿美元,通过“acqui-hire”(收购式招聘)的方式,把Google TPU之父Jonathan Ross和他的Groq精英团队直接打包带走2。老黄的逻辑一向很硬核:只要方案够成熟、能直接上战场,花钱买时间就是最高效的ROI。
行业“地震”:谁笑了谁哭了?
老黄这次大转身,背后的危机感其实已经溢出屏幕了。
随着AI Agent(智能体)的爆发,算力需求正在从“训练优先”转向“推理优先”。推理不再是训练后的赠品,而是频率更高、规模更大的长期负载。很多大佬已经开始为了省钱和提速,悄悄摸索“去英伟达化”了:
- OpenAI与Cerebras: 虽然和老黄关系铁,但OpenAI前阵子刚和Cerebras签了数十亿美元的订单,看中的就是人家的推理优化1。
- 国产算力的围堵: DeepSeek最近传出绕过英伟达,直接在华为昇腾平台上完成模型迁移的消息,甚至有预测称到2026年,英伟达在中国市场的份额会被挤压到个位数3。
- 硅谷大厂的背叛: Meta找AMD订了货,亚马逊在推自家的Trainium芯片,谷歌则守着TPU虎视眈眈1。
面对这种“反英伟达联盟”的合围,老黄必须给出一个无法拒绝的答案。而融合了Groq血统的新推理芯片,就是他用来捍卫王座的重锤。这不仅仅是一款芯片的发布,更是英伟达对整个AI算力格局重塑的回应。
未来预测:下一个“风口”在哪里?
除了这枚神秘的LPU推理芯片,今年的GTC大会可能还有更多“前所未见”的狠货。
外界普遍猜测,基于Rubin架构的新一代GPU和Feynman系列架构也将悉数亮相。甚至有人在期待,那些被老黄“跳票”已久的消费级显卡能不能也给点惊喜?
不管怎样,英伟达大规模引入外部架构这招,确实走得既大胆又务实。当“唯快不破”成为AI推理市场的唯一信条时,老黄用200亿美元买回来的不仅仅是技术,更是通往下一个时代的入场券。
正如《华盛顿邮报》所评价的:这是AI浪潮以来,英伟达第一次在核心硬件层面正面硬刚架构挑战1。至于这一仗能不能赢得漂亮,就看下个月GTC大会上,这颗芯片能不能让全场尖叫了。
引用
-
英伟达计划发布新芯片以加速AI处理并震动计算市场 · 华尔街日报 · (2026/3/2) · 检索日期2026/3/2 ↩︎ ↩︎ ↩︎ ↩︎
-
200亿美元重注LPU,英伟达上演AI推理界“诺曼底登陆” · 36氪 · henry · (2026/3/2) · 检索日期2026/3/2 ↩︎
-
英伟达Feynman发布在即:LPU推理芯片全景梳理 · 雪球 · (2026/3/2) · 检索日期2026/3/2 ↩︎