小米MiMo-V2-Flash:AI时代,硬件巨头如何重塑“人车家”智能宇宙?

温故智新AIGC实验室

TL;DR:

小米通过推出以Agent为核心、极致高效且成本友好的MiMo-V2-Flash模型,正式吹响了其“人车家全生态”AI战役的号角。这不仅是技术上的轻量化突破与强化学习范式转向,更是小米从硬件巨头向以AI驱动的智能生态系统服务商转型的关键一步,预示着端侧AI与具身智能在未来消费电子领域的深远融合。

罗福莉的首秀,携MiMo-V2-Flash模型的发布,绝非一次简单的产品迭代,而是小米在雷军“新战事”指引下,对未来十年乃至更远的智能生态进行战略性重塑的信号。在MIT Technology Review的严谨、Wired的远见和TechCrunch的敏锐交织下,我们深度剖析这场由AI驱动的“人车家”变革。

战略意图解读:小米AI的“轻量化+端侧部署”核心逻辑

小米,这家以极致性价比硬件起家的公司,正以前所未有的姿态,将AI推向其核心战略的聚光灯下。雷军在2023年的年度演讲中便已明确了方向——“轻量化+端侧部署”1。MiMo-V2-Flash的亮相,正是这一宏大战略的具象化落地。

从商业敏锐度看,小米的AI战略是其利用在全球连接超过10亿台设备的巨大存量优势,进行业务升级的必然选择。它试图通过掌握最强大且高效的“大脑”(AI模型),来驱动其最广泛的“身体”(人车家全生态),完成一次彻底的进化。为此,小米集团总裁卢伟冰已明确表示,2025年研发投入预计超过300亿元,其中四分之一(约75亿元)将直接投向AI领域,并计划在未来五年内投入超过2000亿元1。这笔巨额投资,不仅包括自研AI Infra平台和万卡GPU集群的构建,更体现在对罗福莉、陈龙等顶尖人才的招募上,构建了“双核”驱动的AI研发格局。

MiMo系列模型在2025年的加速发布,从4月的MiMo-7B,到5月的多模态MiMo-VL-7B,再到11月的具身智能MiMo-Embodied,直至12月压轴登场的MiMo-V2-Flash,无不展现了小米“急行军”的决心与效率。这背后,是小米打破传统硬件利润天花板,寻找第二增长曲线的强烈渴望,也是在AI浪潮中占据先机的战略卡位。

技术原理与创新点解析:MiMo-V2-Flash的效率密码

MiMo-V2-Flash,作为一个参数309B、激活参数仅15B的模型,罗福莉将其定义为为Agent(智能体)训练的基座模型,其核心优化方向是高性价比、极致快速。这种思路与当前业界普遍追求“大力出奇迹”的超大规模模型有所不同,体现了小米基于自身终端生态特点的务实选择。

罗福莉在演讲中直言,当下模型学习的方向与生物智能的进化方向存在背离,单纯的“大力出奇迹”已难以涌现更高阶的智能。当Scaling Law能够带来的提升越来越少,小米选择了一条更契合自身的路:做一个参数小、性能好且够便宜的模型。1

这一论断,颇具Wired式的哲学思辨深度,挑战了当前AI领域盛行的“规模法则”范式。小米的创新点在于将Scaling的范式逐步从预训练(Pre-train)转向后训练(Post-train),通过在强化学习(RL)上投入更多算力来激发潜能。

MiMo-V2-Flash的技术亮点在于:

  1. Agent核心能力强化:针对Agent设计,强化了代码能力和工具调用,这被视为智能体高效沟通的基础。在SWE-Bench Multilingual(软件工程基准测试)中,该模型在官方数据中甚至超越了包括GPT-5在内的一众闭源大模型1
  2. 极致推理效率与成本控制:达到每秒150 tokens的生成速度,同时将推理成本降至极低。对比Claude Sonnet 4.5,小米新模型的推理价格仅为其2.5%,生成速度却是其2倍。其API定价(输入0.7元/百万tokens,输出2.1元/百万tokens)在国内市场也极具竞争力1
  3. 混合注意力机制:为优化成本和提升推理速度,小米采用了5:1的滑动窗口注意力(Sliding Window Attention, SWA)与全局注意力(Global Attention, GA)的混合结构。这种机制在长文和推理能力上表现优异,且固定大小的KV Cache易于适配现有基础设施,为端侧部署提供了技术支撑12

尽管小米的模型表现亮眼,也引发了“刷分”的争议,但其在特定方向的极致优化,尤其是代码能力和推理效率上的突破,无疑为Agent的落地提供了坚实的基础。

产业生态影响评估:AI驱动的“人车家”闭环与具身智能

小米的AI战略并非空中楼阁,而是紧密围绕其“人车家全生态”展开。AI,是连接手机、智能家居、智能汽车等所有智能终端的底层逻辑和核心驱动力。

  • 智能终端侧:MiMo-V2-Flash的目标是做轻量化模型,通过端侧部署,升级“超级小爱”和澎湃OS,让AI从指令执行者变为更智能的助理。这意味着未来的手机、平板、IoT设备将具备更强的环境感知、决策和执行能力,用户体验将实现质的飞跃。
  • 智能驾驶侧:大模型作为智驾的基座,将极大地拓展智驾的上限。陈龙团队推出的X-Embodied跨具身基座模型,更是试图解决自动驾驶与机器人之间的知识迁移难题,意味着小米正在尝试用一套通用的AI逻辑,去驱动其庞大的硬件生态。

这种跨具身智能的探索,是具身智能领域的前沿方向,旨在构建一个统一的AI系统,能够理解并操作物理世界中的多样化设备。这不仅仅是技术整合,更是对未来智能生活形态的预演——一个无缝衔接、高度智能化的数字-物理融合世界

罗福莉在演讲结尾的愿景,更具有Wired式的未来主义色彩:

“AI进化的下一个起点,一定要有一个可以跟真实环境交互的物理模型,”罗福莉说道,“我们要打造的本质上不是一个程序,而是一个具备物理一致性、时空连贯性的虚拟宇宙。”1

这揭示了小米对AI的终极追求:从数字空间走向物理空间,构建一个能与真实环境深度交互的AI系统,这将对智能家居、自动驾驶、甚至未来元宇宙的形态产生颠覆性影响。

未来发展路径预测:从端侧AI到“物理一致性虚拟宇宙”

未来3-5年内,小米的AI战略将沿着两条主线深入演进:

  1. 端侧AI的全面普及与深化:随着MiMo-V2-Flash等轻量化、高效率模型的持续优化,以及混合注意力机制等技术在边缘计算上的成熟应用,更多的AI能力将直接部署在手机、手表、智能家电甚至可穿戴设备上。这将极大提升用户隐私保护,减少对云端算力的依赖,并催生出如“超级小爱”这样的真正个人AI助理,能够更深入地理解用户习惯,提供个性化、先发性的服务。Agent的普适性将是关键,它们将成为连接物理世界与数字世界的桥梁。
  2. 具身智能与“物理模型”的突破:小米在智驾和机器人领域的投入,尤其是MiMo-Embodied模型的进展,预示着其将逐步构建起能够理解和交互物理世界的AI系统。未来的小米汽车将不仅仅是智能交通工具,更是具备高阶认知和决策能力的智能体。长远来看,罗福莉所提及的“具备物理一致性、时空连贯性的虚拟宇宙”,可能指向一个由AI驱动的、高度仿真的数字孪生世界,能够用于复杂环境的模拟、预测和优化,甚至成为下一代人机交互的平台。

然而,这条路径也并非没有挑战。如何在保持模型性能的同时,进一步将300B级别的模型压缩至真正的端侧部署规模,仍需持续的技术攻坚。此外,具身智能的发展也面临数据获取、泛化能力、安全伦理等一系列复杂问题。

小米的AI战役,是一场集技术创新、商业转型与生态构建于一体的全面战争。它的成败,不仅取决于MiMo-V2-Flash的性能指标,更在于其能否真正将AI能力无缝融入每一台小米设备,转化为用户可感知的价值,并引领我们迈向一个由AI深度赋能的“人车家”智能新时代。

引用


  1. 罗福莉首秀,雷军的AI新战事·36氪·魏琳华, 王一粟(2025/12/18)·检索日期2025/12/18 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 小米大模型MiMo-V2-Flash正式亮相:这一次,是真有料!·网易·(2025/12/18)·检索日期2025/12/18 ↩︎