Michael Goin:vLLM“铁王座”背后的静默架构师——从DeepSeek到多模态,铸就AI推理新标准

温故智新AIGC实验室

TL;DR:

Michael Goin,作为红帽首席工程师与vLLM核心贡献者,以其深厚的技术功底和对开源哲学的坚守,成为大模型推理引擎vLLM从文本到多模态、从单一硬件到异构兼容的关键推手。他通过前瞻性的PyTorch战略、积极的社区协作和对性能优化的极致追求,铸就了vLLM在AI时代推理“铁王座”的地位,深刻影响着AI产业的效率与发展。

数字世界的服务器低声轰鸣,算法与硅晶片的复杂共舞,在人工智能这个瞬息万变、对即时智能响应渴求永无止境的领域,推理的效率如同生命线般至关重要。它是一位沉默的无名英雄,将原始计算转化为有形的、改变世界的影响力。在这股计算浪潮的中心,有一位工程师,他的名字或许不常出现在媒体头条,但他的代码与洞察力,却为全球无数AI应用铺设了高速公路。他就是Michael Goin,红帽的首席工程师,vLLM这一AI推理“铁王座”的核心铸造者之一。

技术突破的背后

vLLM的故事,始于加州大学伯克利分校Sky Computing Lab的一群充满热情的学生与研究员。2023年,他们开源了革命性的PagedAttention技术,点燃了火种。短短一年多,vLLM在GitHub上星标数从4万飙升至6.5万,迅速成为全球科技公司首选的推理引擎1。Neural Magic,这家由MIT研究员创立的企业,以其独特的“免费平台+开源工具”策略,在AI优化领域脱颖而出,并对vLLM社区做出了深远贡献,构建了成熟的企业级推理堆栈1。当红帽于2024年11月战略性收购Neural Magic时,Michael Goin,这位拥有超过十年优化推理性能和CPU/GPU效能经验的工程师,连同他的核心团队,正式成为了红帽的一员。他在vLLM社区深耕于内核调优、模型压缩及系统优化,其对代码的精细雕琢,如同钟表匠对精密齿轮的打磨,确保着vLLM引擎的每一次转动都精准而高效。

作为vLLM项目的“内核团队”领导者,Michael Goin及其团队的日常,是一场与时间赛跑的极限挑战。每一次新型大模型的发布,都意味着新的适配与优化。当DeepSeek R1横空出世,其独特的MoE(Mixture-of-Experts)架构带来了前所未有的复杂性,也彻底改变了团队的焦点2。Michael回忆道:

“整个0.7.2版本的开发周期都非常紧凑,我们需要迅速响应DeepSeek的新特性,还要高效支持Qwen 2.5 VL,并引入Transformers backend,让用户能够直接运行任意Hugging Face模型。” 1

这不仅仅是技术的堆砌,更是对效率和前瞻性的考验。

随后到来的0.7.3版本更是一次大规模的更新,众多贡献者在紧张的节奏中高效协作。该版本不仅为DeepSeek启用了多Token预测(MTP)、MLA注意力等优化,还史无前例地将专家并行(Expert Parallelism)的支持融入vLLM,这是一个在DeepSeek之前并不常见的技术方向。Michael将DeepSeek开源的一系列高性能工具,如DeepGEMM、DeepEP和专家并行负载均衡等,系统化地融入vLLM生态,使得原本用于私有环境的技术,被转化为可持续、通用化的实现,从而服务更多基于MoE架构的模型。

"vLLM的某些演进正是受DeepSeek所推动,并非因为DeepSeek模型本身运行更快,而是其开源的一系列先进技术为整个生态带来了提升。" 1

他沉稳地指出,这如同一次技术的“反哺”,DeepSeek的复杂性反而为vLLM团队带来了优化与泛化的宝贵契机。他们与DeepSeek携手,将先进算法与底层框架的实现完美结合,构建出更强大的推理框架,真正实现了_“强强联合”_。除了主导DeepSeek V3的整合,Michael还带领团队完成了GPT-OSS、Qwen、Kimi等多个模型的适配与优化,每一次攻坚克难,都铸就了vLLM在推理领域的“铁王座”的坚实基石。

开放生态的构建者

Michael Goin的愿景远不止于支持单个模型,更在于构建一个开放、高效的硬件推理生态。在异构计算的时代,芯片厂商的百花齐放既带来了机遇,也带来了前所未有的兼容性挑战。而Michael的策略核心,是深度拥抱PyTorch,将其视为连接上层框架与底层硬件的“最大公约数”。

“硬件之上是PyTorch,PyTorch之上才是vLLM,” 1

Michael解释道,“这意味着,只要硬件厂商提供了对PyTorch的良好支持,那么适配vLLM的工作就已完成大半。” vLLM的模型定义几乎完全基于PyTorch编写,仅在注意力机制等少数关键模块保留了可替换的定制化空间。正是通过这种统一的PyTorch抽象层,vLLM得以集成各家硬件的加速实现,包括NVIDIA的FlashAttention、AMD的ROCm Attention、Google TPU的Pathways Attention,乃至昇腾NPU的Attention等十余种后端1。这种策略不仅极大地降低了多硬件支持的复杂度,也让整个生态能在统一的基础上持续演进与优化。他进一步强调,PyTorch被视为从机器学习到硬件层的最佳抽象框架,这也是vLLM选择加入PyTorch基金会的原因之一。

Michael Goin与全球顶尖的硬件巨头们保持着紧密的协作。他与NVIDIA共同推进 Blackwell 芯片的支持工作,优化B200相关性能;与AMD团队确保vLLM在其平台上的表现;与Google TPU团队合作一年多,完成了多次版本发布。更引人注目的是,在与国内新兴芯片厂商沐曦的合作中,Michael作为最高决策者,甚至参与设计了整体支持架构。

“在项目非常早期阶段,我便与沐曦团队共同讨论支持框架的设计方向,”Michael回忆道。他主导高层架构,而他的社区贡献者则深入细节,甚至专程赴上海进行面对面技术对接。双方在Slack上创建了跨公司“线上联合工作组”,确保高效推进。红帽亚太CTO办公室首席架构师张家驹对此深有感触:

“对沐曦而言,他们找到了让社区支持其硬件的优雅方式,这意味着未来的维护工作量将比以往更少。对社区而言,我们也推动了一个支持不同硬件的生态系统的发展。” 1

这种深度协作,体现了Michael对生态建设的严谨投入,最终实现了双赢。

然而,在硬件竞争的深水区,一个长期困扰业界的问题是:NVIDIA的CUDA护城河是否依然坚固?Michael Goin以其工程师的理性坦言:

“CUDA对其他硬件而言并非一种可直接迁移的语言,这本质上是硬件抽象与软件生态的长期累积差距。” 1

即便能在PyTorch层实现功能兼容,其效率往往难以匹敌NVIDIA经过十数年深度打磨的CUDA生态。

但Michael也敏锐地指出了转折点:

“新型注意力算法正在不断涌现,对于这些崭新技术,其他硬件供应商有可能实现超越。它们非常新颖,供应商或许能提供比CUDA更快速、更原生的支持。” 1

他以Kimi提出的KDA算法为例,该算法率先通过Triton获得支持。他将此比喻为一场体育竞赛,“一切又回到了同一条起跑线。” 这句话不仅揭示了技术竞争的残酷与魅力,更展现了他对未来技术范式转变的深刻洞察与乐观判断。

拥抱多模态:面向未来的演进

当Michael Goin和他的团队还在深入优化单一模态推理的每一个字节时,AI的浪潮已悄然转向多模态。vLLM,这个最初为文本推理而生的引擎,在Michael的引领下,开始了一场深刻的自我革新,从一个纯文本推理引擎,全面升级为一个支持全模态生成与理解的统一服务平台。

“无论是文生图、文档理解,还是其他生成任务,其底层均依赖于大模型推理,因此都可以通过vLLM进行处理,” 1

Michael坚定地指出。为了实现这一宏大的愿景,团队对vLLM v1版本进行了彻底重构。其中一项关键创新是_多模态前缀缓存(multimodal prefix caching)_。传统上,vLLM通过Page Attention复用文本token的键值缓存;如今,这一机制已扩展至图像、音频等任意模态输入,大幅提升了重复请求的处理效率1

为了支撑超大规模推理部署,团队还实现了_编码器解耦技术_,将视觉、音频编码器与语言模型backbone解耦,这不仅符合多模态模型的结构特点,也为资源利用率和弹性部署提供了极致的优化。

2024年12月,这项演进迎来了里程碑时刻:vLLM-Omni作为其首个“全模态”推理框架正式发布。Omni并非在原有框架上的简单封装,而是引入了一套完全解耦的流水线架构,让不同阶段按需分配资源,并通过统一调度衔接。一个全模态推理请求将经过模态编码器、LLM核心与模态生成器三类组件,通过管线调度在不同GPU/节点间协同工作1

Michael Goin对vLLM的定位清晰而宏大:

“vLLM的核心角色,是一个高效的推理引擎与服务器,这类似于Web服务器托管各种网页应用(如HTML或JavaScript页面)的逻辑。vLLM需要承载各种各样的模型与应用,并致力于在各种使用场景下,无论是应对一千名还是十万名用户的访问,都能提供优异的性能。” 1

他的话语中,蕴含着对vLLM未来无限可能性的坚定信念,以及将其打造成为AI时代最通用、最高效推理基础架构的雄心壮志。

社区驱动与“速度”哲学

vLLM之所以能够在短短两年半内发展成为AI推理领域的“铁王座”,除了其核心技术的卓越性,更离不开其独特的“速度”哲学和蓬勃发展的开源社区。Michael Goin观察到一个显著的趋势:越来越多的公司开始将他们的修改回馈到vLLM的上游。

"这是因为vLLM本身已经有了大量的改进,这些改进对他们私下开发的版本来说也是有增益性的,所以他们希望能更频繁地与上游同步。他们开始愿意把自己定制的改动upstream到项目中,并且更倾向于直接使用upstream vLLM,而不是开发一个非常不同的私有版本。我们已经在多个案例中看到了这种情况的发生。" 1

红帽亚太CTO办公室首席架构师张家驹补充道,vLLM的上游版本拥有一个独特优势:

“就是和众多领先的模型实验室和公司合作,快速收集他们的反馈,有bug就去修,修完之后也会放回社区,让更多人看到。” 1

vLLM的合作名单星光熠熠,涵盖了从DeepSeek、Qwen、字节、腾讯,到LinkedIn、亚马逊、Mistral、Azure和Snowflake等行业巨头。这种速度优势形成了一个良性循环:用户越多,反馈越快,迭代就越迅猛。当社区版本的迭代速度远超私有分支时,企业就会自然而然地选择拥抱社区版本,将其作为事实标准。

然而,作为一个每月下载量超20万次的热门推理框架1,vLLM的广泛采用也意味着它必须直面生产环境中的真实挑战。近期,不少开发者集中反馈了启动速度偏慢的问题。对此,Michael Goin展现了他作为核心维护者的责任感与务实精神。

他回应道,团队大约从几个月前已经开始明确着手解决这一问题。他们不仅在GitHub上建立了专项跟踪与“启动体验优化”项目,还在Slack开设了专门频道,以持续收集并响应用户的实际痛点。Michael解释,启动时间较长的因素有几个,其一是CUDA graph capture time:为了获得最佳性能,需要捕获尽可能多的CUDA graph,但每多捕获一个graph,启动时间也会相应增加,因此需要做好权衡。另一个因素是torch.compile,它本身也需要一定时间。开发团队已推动torch.compile团队重视启动时间问题,并取得了一些显著改进1

此外,Michael团队还打造了一些工具和指南,指导用户如何处理冷启动与热启动的差异,例如设置缓存目录来存储torch.compile的输出结果、Triton的输出结果以及其他编译或初始化的内容。

“若开发者正在部署单个模型,并计划扩展至多个副本,团队建议在部署中复制该缓存目录以实现热启动,这比冷启动快得多。” 1

这番细致入微的解释,不仅回应了社区的关切,更体现了Michael Goin对开发者体验的深刻理解与人文关怀。

结束语

在vLLM这个由社区驱动的庞大项目中,红帽以其深厚的开源基因扮演着不可或缺的角色。张家驹指出,红帽全球约有两万名员工,其中可能有一两千名工程师完全在社区中做贡献:

“他们贡献的工作并不针对红帽的商业方面,做的事情非常中立。” 1

这种对开源原则的坚持,使得红帽能够在vLLM这样一个高度分散、由15到20个不同组织成员共同维护的多元生态中,以其工程实力和中立立场发挥关键影响力。

红帽如此投入vLLM,源于一个清晰的战略判断:推理是AI应用成本的核心环节。Michael Goin的团队,通过主导推动vLLM v1版本的架构重构,实质性地推动了社区标准化进程,并与PyTorch torch.compile团队长达一年半的合作,优化了上游框架以更好支持vLLM的高阶场景。

“这些工作让支持新硬件、新模型变得更容易,” 1

张家驹解释道,红帽力图把这个标准化的层做得越来越厚、越来越稳定。

透过Michael Goin,我们看到的不仅是一位技术精湛的首席工程师,更是一位深谙行业趋势、推动技术变革的远见者。他用代码构建桥梁,连接着复杂模型与异构硬件;他用战略指引方向,将开源协作的理念内化为产品的核心竞争力。他的故事,是AI时代无数工程师默默奉献、改变世界的一个缩影。面向更加多变的未来,红帽和vLLM能否守住“推理服务标准”的地位,答案或许就藏在Michael Goin下一个深思熟虑的架构决策中。

引用