Michael Goin：vLLM“铁王座”背后的静默架构师——从DeepSeek到多模态，铸就AI推理新标准

TL;DR：

Michael Goin，作为红帽首席工程师与vLLM核心贡献者，以其深厚的技术功底和对开源哲学的坚守，成为大模型推理引擎vLLM从文本到多模态、从单一硬件到异构兼容的关键推手。他通过前瞻性的PyTorch战略、积极的社区协作和对性能优化的极致追求，铸就了vLLM在AI时代推理“铁王座”的地位，深刻影响着AI产业的效率与发展。

数字世界的服务器低声轰鸣，算法与硅晶片的复杂共舞，在人工智能这个瞬息万变、对即时智能响应渴求永无止境的领域，推理的效率如同生命线般至关重要。它是一位沉默的无名英雄，将原始计算转化为有形的、改变世界的影响力。在这股计算浪潮的中心，有一位工程师，他的名字或许不常出现在媒体头条，但他的代码与洞察力，却为全球无数AI应用铺设了高速公路。他就是Michael Goin，红帽的首席工程师，vLLM这一AI推理“铁王座”的核心铸造者之一。

技术突破的背后

vLLM的故事，始于加州大学伯克利分校Sky Computing Lab的一群充满热情的学生与研究员。2023年，他们开源了革命性的PagedAttention技术，点燃了火种。短短一年多，vLLM在GitHub上星标数从4万飙升至6.5万，迅速成为全球科技公司首选的推理引擎¹。Neural Magic，这家由MIT研究员创立的企业，以其独特的“免费平台+开源工具”策略，在AI优化领域脱颖而出，并对vLLM社区做出了深远贡献，构建了成熟的企业级推理堆栈¹。当红帽于2024年11月战略性收购Neural Magic时，Michael Goin，这位拥有超过十年优化推理性能和CPU/GPU效能经验的工程师，连同他的核心团队，正式成为了红帽的一员。他在vLLM社区深耕于内核调优、模型压缩及系统优化，其对代码的精细雕琢，如同钟表匠对精密齿轮的打磨，确保着vLLM引擎的每一次转动都精准而高效。

作为vLLM项目的“内核团队”领导者，Michael Goin及其团队的日常，是一场与时间赛跑的极限挑战。每一次新型大模型的发布，都意味着新的适配与优化。当DeepSeek R1横空出世，其独特的MoE（Mixture-of-Experts）架构带来了前所未有的复杂性，也彻底改变了团队的焦点²。Michael回忆道：

“整个0.7.2版本的开发周期都非常紧凑，我们需要迅速响应DeepSeek的新特性，还要高效支持Qwen 2.5 VL，并引入Transformers backend，让用户能够直接运行任意Hugging Face模型。” ¹

这不仅仅是技术的堆砌，更是对效率和前瞻性的考验。

随后到来的0.7.3版本更是一次大规模的更新，众多贡献者在紧张的节奏中高效协作。该版本不仅为DeepSeek启用了多Token预测（MTP）、MLA注意力等优化，还史无前例地将专家并行（Expert Parallelism）的支持融入vLLM，这是一个在DeepSeek之前并不常见的技术方向。Michael将DeepSeek开源的一系列高性能工具，如DeepGEMM、DeepEP和专家并行负载均衡等，系统化地融入vLLM生态，使得原本用于私有环境的技术，被转化为可持续、通用化的实现，从而服务更多基于MoE架构的模型。

"vLLM的某些演进正是受DeepSeek所推动，并非因为DeepSeek模型本身运行更快，而是其开源的一系列先进技术为整个生态带来了提升。" ¹

他沉稳地指出，这如同一次技术的“反哺”，DeepSeek的复杂性反而为vLLM团队带来了优化与泛化的宝贵契机。他们与DeepSeek携手，将先进算法与底层框架的实现完美结合，构建出更强大的推理框架，真正实现了_“强强联合”_。除了主导DeepSeek V3的整合，Michael还带领团队完成了GPT-OSS、Qwen、Kimi等多个模型的适配与优化，每一次攻坚克难，都铸就了vLLM在推理领域的“铁王座”的坚实基石。

开放生态的构建者

Michael Goin的愿景远不止于支持单个模型，更在于构建一个开放、高效的硬件推理生态。在异构计算的时代，芯片厂商的百花齐放既带来了机遇，也带来了前所未有的兼容性挑战。而Michael的策略核心，是深度拥抱PyTorch，将其视为连接上层框架与底层硬件的“最大公约数”。

“硬件之上是PyTorch，PyTorch之上才是vLLM，” ¹

Michael解释道，“这意味着，只要硬件厂商提供了对PyTorch的良好支持，那么适配vLLM的工作就已完成大半。” vLLM的模型定义几乎完全基于PyTorch编写，仅在注意力机制等少数关键模块保留了可替换的定制化空间。正是通过这种统一的PyTorch抽象层，vLLM得以集成各家硬件的加速实现，包括NVIDIA的FlashAttention、AMD的ROCm Attention、Google TPU的Pathways Attention，乃至昇腾NPU的Attention等十余种后端¹。这种策略不仅极大地降低了多硬件支持的复杂度，也让整个生态能在统一的基础上持续演进与优化。他进一步强调，PyTorch被视为从机器学习到硬件层的最佳抽象框架，这也是vLLM选择加入PyTorch基金会的原因之一。

Michael Goin与全球顶尖的硬件巨头们保持着紧密的协作。他与NVIDIA共同推进 Blackwell 芯片的支持工作，优化B200相关性能；与AMD团队确保vLLM在其平台上的表现；与Google TPU团队合作一年多，完成了多次版本发布。更引人注目的是，在与国内新兴芯片厂商沐曦的合作中，Michael作为最高决策者，甚至参与设计了整体支持架构。

“在项目非常早期阶段，我便与沐曦团队共同讨论支持框架的设计方向，”Michael回忆道。他主导高层架构，而他的社区贡献者则深入细节，甚至专程赴上海进行面对面技术对接。双方在Slack上创建了跨公司“线上联合工作组”，确保高效推进。红帽亚太CTO办公室首席架构师张家驹对此深有感触：

“对沐曦而言，他们找到了让社区支持其硬件的优雅方式，这意味着未来的维护工作量将比以往更少。对社区而言，我们也推动了一个支持不同硬件的生态系统的发展。” ¹

这种深度协作，体现了Michael对生态建设的严谨投入，最终实现了双赢。

然而，在硬件竞争的深水区，一个长期困扰业界的问题是：NVIDIA的CUDA护城河是否依然坚固？Michael Goin以其工程师的理性坦言：

“CUDA对其他硬件而言并非一种可直接迁移的语言，这本质上是硬件抽象与软件生态的长期累积差距。” ¹

即便能在PyTorch层实现功能兼容，其效率往往难以匹敌NVIDIA经过十数年深度打磨的CUDA生态。

但Michael也敏锐地指出了转折点：

“新型注意力算法正在不断涌现，对于这些崭新技术，其他硬件供应商有可能实现超越。它们非常新颖，供应商或许能提供比CUDA更快速、更原生的支持。” ¹

他以Kimi提出的KDA算法为例，该算法率先通过Triton获得支持。他将此比喻为一场体育竞赛，“一切又回到了同一条起跑线。” 这句话不仅揭示了技术竞争的残酷与魅力，更展现了他对未来技术范式转变的深刻洞察与乐观判断。

拥抱多模态：面向未来的演进

当Michael Goin和他的团队还在深入优化单一模态推理的每一个字节时，AI的浪潮已悄然转向多模态。vLLM，这个最初为文本推理而生的引擎，在Michael的引领下，开始了一场深刻的自我革新，从一个纯文本推理引擎，全面升级为一个支持全模态生成与理解的统一服务平台。

“无论是文生图、文档理解，还是其他生成任务，其底层均依赖于大模型推理，因此都可以通过vLLM进行处理，” ¹

Michael坚定地指出。为了实现这一宏大的愿景，团队对vLLM v1版本进行了彻底重构。其中一项关键创新是_多模态前缀缓存（multimodal prefix caching）_。传统上，vLLM通过Page Attention复用文本token的键值缓存；如今，这一机制已扩展至图像、音频等任意模态输入，大幅提升了重复请求的处理效率¹。

为了支撑超大规模推理部署，团队还实现了_编码器解耦技术_，将视觉、音频编码器与语言模型backbone解耦，这不仅符合多模态模型的结构特点，也为资源利用率和弹性部署提供了极致的优化。

2024年12月，这项演进迎来了里程碑时刻：vLLM-Omni作为其首个“全模态”推理框架正式发布。Omni并非在原有框架上的简单封装，而是引入了一套完全解耦的流水线架构，让不同阶段按需分配资源，并通过统一调度衔接。一个全模态推理请求将经过模态编码器、LLM核心与模态生成器三类组件，通过管线调度在不同GPU/节点间协同工作¹。

Michael Goin对vLLM的定位清晰而宏大：

“vLLM的核心角色，是一个高效的推理引擎与服务器，这类似于Web服务器托管各种网页应用（如HTML或JavaScript页面）的逻辑。vLLM需要承载各种各样的模型与应用，并致力于在各种使用场景下，无论是应对一千名还是十万名用户的访问，都能提供优异的性能。” ¹

他的话语中，蕴含着对vLLM未来无限可能性的坚定信念，以及将其打造成为AI时代最通用、最高效推理基础架构的雄心壮志。

社区驱动与“速度”哲学

vLLM之所以能够在短短两年半内发展成为AI推理领域的“铁王座”，除了其核心技术的卓越性，更离不开其独特的“速度”哲学和蓬勃发展的开源社区。Michael Goin观察到一个显著的趋势：越来越多的公司开始将他们的修改回馈到vLLM的上游。

"这是因为vLLM本身已经有了大量的改进，这些改进对他们私下开发的版本来说也是有增益性的，所以他们希望能更频繁地与上游同步。他们开始愿意把自己定制的改动upstream到项目中，并且更倾向于直接使用upstream vLLM，而不是开发一个非常不同的私有版本。我们已经在多个案例中看到了这种情况的发生。" ¹

红帽亚太CTO办公室首席架构师张家驹补充道，vLLM的上游版本拥有一个独特优势：

“就是和众多领先的模型实验室和公司合作，快速收集他们的反馈，有bug就去修，修完之后也会放回社区，让更多人看到。” ¹

vLLM的合作名单星光熠熠，涵盖了从DeepSeek、Qwen、字节、腾讯，到LinkedIn、亚马逊、Mistral、Azure和Snowflake等行业巨头。这种速度优势形成了一个良性循环：用户越多，反馈越快，迭代就越迅猛。当社区版本的迭代速度远超私有分支时，企业就会自然而然地选择拥抱社区版本，将其作为事实标准。

然而，作为一个每月下载量超20万次的热门推理框架¹，vLLM的广泛采用也意味着它必须直面生产环境中的真实挑战。近期，不少开发者集中反馈了启动速度偏慢的问题。对此，Michael Goin展现了他作为核心维护者的责任感与务实精神。

他回应道，团队大约从几个月前已经开始明确着手解决这一问题。他们不仅在GitHub上建立了专项跟踪与“启动体验优化”项目，还在Slack开设了专门频道，以持续收集并响应用户的实际痛点。Michael解释，启动时间较长的因素有几个，其一是CUDA graph capture time：为了获得最佳性能，需要捕获尽可能多的CUDA graph，但每多捕获一个graph，启动时间也会相应增加，因此需要做好权衡。另一个因素是torch.compile，它本身也需要一定时间。开发团队已推动torch.compile团队重视启动时间问题，并取得了一些显著改进¹。

此外，Michael团队还打造了一些工具和指南，指导用户如何处理冷启动与热启动的差异，例如设置缓存目录来存储torch.compile的输出结果、Triton的输出结果以及其他编译或初始化的内容。

“若开发者正在部署单个模型，并计划扩展至多个副本，团队建议在部署中复制该缓存目录以实现热启动，这比冷启动快得多。” ¹

这番细致入微的解释，不仅回应了社区的关切，更体现了Michael Goin对开发者体验的深刻理解与人文关怀。

结束语

在vLLM这个由社区驱动的庞大项目中，红帽以其深厚的开源基因扮演着不可或缺的角色。张家驹指出，红帽全球约有两万名员工，其中可能有一两千名工程师完全在社区中做贡献：

“他们贡献的工作并不针对红帽的商业方面，做的事情非常中立。” ¹

这种对开源原则的坚持，使得红帽能够在vLLM这样一个高度分散、由15到20个不同组织成员共同维护的多元生态中，以其工程实力和中立立场发挥关键影响力。

红帽如此投入vLLM，源于一个清晰的战略判断：推理是AI应用成本的核心环节。Michael Goin的团队，通过主导推动vLLM v1版本的架构重构，实质性地推动了社区标准化进程，并与PyTorch torch.compile团队长达一年半的合作，优化了上游框架以更好支持vLLM的高阶场景。

“这些工作让支持新硬件、新模型变得更容易，” ¹

张家驹解释道，红帽力图把这个标准化的层做得越来越厚、越来越稳定。

透过Michael Goin，我们看到的不仅是一位技术精湛的首席工程师，更是一位深谙行业趋势、推动技术变革的远见者。他用代码构建桥梁，连接着复杂模型与异构硬件；他用战略指引方向，将开源协作的理念内化为产品的核心竞争力。他的故事，是AI时代无数工程师默默奉献、改变世界的一个缩影。面向更加多变的未来，红帽和vLLM能否守住“推理服务标准”的地位，答案或许就藏在Michael Goin下一个深思熟虑的架构决策中。

引用

DeepSeek倒逼vLLM升级！芯片内卷、MoE横扫千模，vLLM核心维护者独家回应：如何凭PyTorch坐稳推理“铁王座”·36氪·（2025/12/14）·检索日期2025/12/16 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
vLLM 专门讲DeepSeek 推理优化，建议看看。 ppt可抄·X (formerly Twitter)·@9hills·（2025/12/14）·检索日期2025/12/16 ↩︎