TL;DR:
全球AI算力基础设施正经历一场由软件生态驱动的深刻变革,华为昇腾CANN全面开源与传奇GPU架构师Raja Koduri创办Oxmiq Labs,共同向英伟达封闭的CUDA生态发起挑战,预示着一个更加开放、硬件与软件解耦的“后CUDA时代”正在加速到来。
过去十余年间,英伟达(NVIDIA)凭借其CUDA(Compute Unified Device Architecture)平台,在人工智能算力领域构建起一道难以逾越的护城河。CUDA不仅是GPU编程的黄金标准,更是一个庞大而成熟的开发者生态系统,使得AI研究者和开发者高度依赖英伟达的硬件。然而,随着全球对AI算力需求的激增以及地缘政治背景下技术自主可控的诉求,这种高度集中的局面正面临前所未有的挑战。近期,两大重磅事件——华为昇腾CANN的全面开源和传奇GPU架构师Raja Koduri新公司Oxmiq Labs的浮出水面——共同吹响了打破CUDA壁垒、重塑AI算力产业格局的号角。
打破壁垒:从硬件到生态的算力主权之争
英伟达CUDA的强大,不仅在于其卓越的硬件性能,更在于其通过软硬件一体化构建的高粘性开发者生态。一旦开发者选择CUDA,其代码、工具链和社区支持都将与英伟达GPU深度绑定。这种“锁定效应”使得其他硬件厂商难以切入市场,即使拥有强大的硬件,也因缺乏配套的软件生态而举步维艰。对于寻求技术自主和产业多样化的国家及企业而言,打破这种单一供应商垄断的格局,已成为战略优先事项。
正是在这一背景下,华为和Oxmiq Labs的举动显得尤为关键。它们并非仅仅推出新的硬件产品,而是直指英伟达的核心壁垒——软件生态。这标志着AI算力竞争的焦点,已从单纯的硬件性能竞赛,演变为一场围绕软件兼容性、开发便捷性和生态开放度的全面较量。
CANN与昇腾:中国AI算力生态的基石
华为轮值董事长徐直军在昇腾计算产业发展峰会上明确指出,华为AI战略的核心是算力,并坚持昇腾硬件变现。为实现这一目标,华为迈出了具有里程碑意义的一步:其昇腾AI GPU使能的CANN(Compute Architecture for Neural Networks)软件工具包全面开源开放,同时开源的还有Mind系列应用使能套件及工具链。1
CANN作为神经网络计算架构,为用户构建基于华为昇腾的AI应用程序提供多层编程接口,它集成了多种技能栈和算子加速库,作用类似英伟达的CUDA。通过开源CANN 8.0版本,华为旨在赋能开发者深度挖掘昇腾GPU潜力,使其“更好用、更易用”。这不仅是技术层面的突破,更是华为在全球AI算力版图中构建开放、自主生态的战略决心。
华为的这一举措具有多重深远意义:
- 技术自主与战略纵深:在全球技术竞争加剧的当下,拥有自主可控的AI计算基础设施至关重要。CANN的开源是华为在底层软件栈上的关键布局,为中国AI产业提供了坚实的本土化选择,降低了对外部技术的依赖风险。
- 降低开发门槛,吸引开发者:CANN目前已支持PyTorch、MindSpore、TensorFlow、飞桨等主流深度学习框架及ONNX等中间件,这种广泛的兼容性极大地降低了开发者迁移和适配的成本。2通过开放,华为希望借力社区力量,加速生态成熟。
- 构建产业联盟:在峰会上,华为与合作伙伴共同发起《CANN开源开放生态共建倡议》,这表明华为不仅是技术提供者,更是生态的倡导者和组织者,致力于联合产业链上下游共同打破英伟达的封闭生态。
Oxmiq Labs:架构师的软件独立宣言
与华为自下而上构建完整软硬栈不同,由传奇GPU架构师Raja Koduri创办的Oxmiq Labs,则从另一个角度对CUDA生态发起挑战:提供与硬件无关的CUDA兼容层。Koduri曾效力于AMD、苹果、英特尔等巨头,其在GPU架构领域的深厚积累使其新公司备受瞩目。3
Oxmiq Labs的核心策略在于其创新性的软件堆栈,尤其是OXPython。这是一个兼容层,能够将以CUDA为中心、基于Python的工作负载转换为Oxmiq的运行时,并允许在非英伟达硬件上无需修改和重新编译即可运行。3这意味着,开发者可以继续使用他们熟悉的CUDA编程范式,但不再被绑定在英伟达的硬件上。
Oxmiq Labs的技术亮点包括:
- RISC-V架构的GPU IP核OxCore:集成标量、矢量和张量计算引擎,支持近内存计算,体现了在定制化、模块化硬件上的前瞻性布局。
- Chiplet(小芯片)构建器OxQuilt:使客户能根据特定工作负载需求,快速高效地定制集成计算集群,预示着未来AI芯片设计的灵活化和垂直整合趋势。
- 硬件独立性:Oxmiq的软件堆栈从根本上设计为独立于其自身的硬件,这一战略选择至关重要。它旨在创建一个通用且可移植的AI和图形工作负载运行时环境,从而赋能更广泛的硬件平台。
Oxmiq Labs的模式,其商业敏锐度在于它不直接与英伟达在消费级GPU市场竞争,而是专注于授权其GPU硬件和软件IP,通过提供解耦的软件解决方案来蚕食CUDA的生态优势。这种模式可能为更多AI硬件初创公司提供加速其产品落地的机会,避免了重复造轮子的巨大投入。
后CUDA时代:开放、模块化与协同的未来
华为CANN的开源与Oxmiq Labs的软件独立宣言,共同指向了一个趋势:AI算力生态将走向更加开放、解耦和多元化的格局。
- 软件定义硬件的深化:未来的AI算力竞争将不仅仅是硬件层面的晶体管数量或算力峰值,更是软件工具链、编译器优化和生态系统成熟度的较量。硬件的差异化将更多地体现在如何通过软件栈实现高效利用和灵活部署。
- 解耦与模块化:硬件与软件的解耦将成为常态。无论是华为试图在国产硬件上构建完整生态,还是Oxmiq通过兼容层实现软件的硬件无关性,都预示着AI算力栈的模块化和可插拔性将显著增强。RISC-V和chiplet技术的发展也将加速硬件层面的模块化。
- 开发者主导权的回归:长期以来,开发者在一定程度上被CUDA生态所“绑架”。随着开放生态的崛起,开发者将拥有更多选择权,可以根据性能、成本、部署环境等需求,在不同硬件平台间灵活切换,无需承担高昂的迁移成本。这将极大促进AI创新,降低创新门槛。
- 产业竞争格局重塑:英伟达在短时间内仍将保持其领先地位,但其生态优势正受到多维度的侵蚀。未来,竞争将不再是单一公司的独角戏,而是由技术联盟、开源社区和多元化解决方案共同参与的生态博弈。这可能催生更多专注于特定环节(如编译器、调度器、算子库)的专业公司。
- 地缘政治与技术脱钩的应对:对于追求技术自主的国家而言,建立本土化的开放AI算力生态是确保其在AI时代核心竞争力的关键。华为的CANN开源不仅是商业策略,更承载了国家层面的战略安全考量。
总而言之,AI算力领域正从英伟达的“黄金标准”时代,迈向一个由多方力量共同推动的**“春秋战国”时期**。这场围绕开放、互操作性和开发者自由的生态之争,最终受益的将是整个AI产业的创新速度和人类社会利用AI的普惠程度。这是一个充满挑战,但也孕育着无限机遇的时代,未来3-5年内,我们将看到更多AI算力领域的解耦、整合与再平衡。
引用
-
对标英伟达CUDA,华为宣布开源CANN·观察者网·佚名(2025/08/05)·检索日期2025/8/6 ↩︎
-
华为是AI芯片“卷王”?这才是关键·量子位·红交(2025/8/6)·检索日期2025/8/6 ↩︎
-
Legendary GPU Architect Raja Koduri’s New Startup Leverages RISC-V and Targets CUDA Workloads: Oxmiq Labs Supports Running Python-based CUDA Applications Unmodified on Non-Nvidia Hardware·Tom's Hardware·Anton Shilov(2025/8/6)·检索日期2025/8/6 ↩︎ ↩︎