具身智能“非共识”浪潮下的范式重构:数据飞轮、世界模型与“Action First”新纪元

温故智新AIGC实验室

TL;DR:

具身智能正处于关键的“非共识”节点,顶尖专家围绕数据来源、世界模型定义及统一架构展开激烈辩论,预示着行业正从早期探索走向一场以数据飞轮驱动、Action First为核心的范式重构,最终将塑造一个以物理世界为基石的“具身智能互联网”。

具身智能的“非共识”:路线之争与范式重构前夜

在2025智源具身Open Day圆桌论坛上,国内具身智能领域的八位顶流专家,面对“百亿资金如何花”这一开放性问题,揭示了行业在技术路径、战略重心乃至哲学思辨上的显著“非共识”。这一现象并非停滞的信号,反而印证了具身智能正从概念验证迈向关键的范式重构前夜,各方力量正在不确定中寻找通往通用智能的“第一性原理”。

当前,具身智能面临着三大挑战:数据稀缺性、数据泛化性与产品落地难题 1。而这场“非共识”的核心,正围绕如何克服这些挑战,尤其是数据策略和模型架构的选择上。

数据飞轮:从稀缺到“具身智能互联网”的驱动力

数据,无疑是具身智能发展的命脉。然而,如何获取高质量、多样性、大规模的数据,是当前最棘手的问题,专家们在此问题上的分歧尤为明显:

  • 真实世界数据的信仰者:以星海图联合创始人赵行和招商局集团AI首席科学家张家兴为代表,强调真实物理世界采集数据的重要性,注重数据质量和多样性,并主张深入真实场景采集,而非仅限于数据采集厂。智元机器人合伙人罗剑岚更进一步,设想通过大量机器人自主与环境交互来产生数据,构建“世界上最大的自我进化、自我闭环的数据飞轮” 2。中国科学院大学教授赵冬斌则从自动驾驶的经验类比,指出机器人需普及到C端,在实际工作中“边工作边收数据”以实现数据量的爆发式增长。
  • 合成数据与仿真的拥护者:北京大学助理教授王鹤强调,在真实数据难以采集的复杂底层控制任务中(如足式行走、灵巧手操作),仿真数据与强化学习是习得“Base Controller”的关键路径。他认为,模拟器能加速具身智能的能力点增长,进而促进“机器人人口”的增加。加速进化创始人程昊也指出,当下仿真数据能帮助具身智能快速落地,获得真实数据,形成一个**“螺旋上升”的数据发展过程**。
  • 融合与动态策略:自变量创始人王潜则认为应融合多种数据,根据不同任务选取合适来源。他强调,数据质量远比单纯的数据量级更为重要,并指出互联网数据可用于预训练学习常识,仿真数据用于导航规划,而物理世界的真实数据则专注于接触、取物等复杂操作。智源研究院院长王仲远则主张以海量视频数据进行基座模型学习,再通过真机数据微调和强化学习反馈,这与人类孩童通过视频认知世界再通过实际交互提升技能的原理相符。

这种“非共识”实际上揭示了行业对数据策略的深度思考和多路径探索。最终,数据瓶颈的解决,将通过一个多源融合、质量优先、自我进化的“数据飞轮”得以实现。王仲远提出的“具身智能互联网”级别数据的概念,预示着未来无数机器人将共同构建一个海量的、实时交互的物理世界数据网络,成为具身智能实现通用能力的核心驱动力。这将是继互联网信息大数据之后,又一个量级的数据洪流,为具身智能的基座模型训练提供源源不断的养料 2

世界模型与“具身智能本体”的崛起:架构思辨与未来范式

在模型架构层面,具身智能同样面临着深度思辨和范式重构。当前,大语言模型(LLM)驱动下的视觉-语言-动作(VLA)范式虽是主流,但其局限性已引发了行业深思。

  • 世界模型的不可或缺性:专家普遍认同世界模型对具身智能的关键作用。王鹤认为,世界模型所代表的预测能力对机器人而言不可或缺,它能让机器人像人类一样根据未来目标进行动作规划。但其训练数据必须来自机器人自身,而非人类行为视频。王仲远进一步阐释,真正的世界模型应能基于前序时空状态预测下一个时空状态,远超单纯的视频生成 2。世界模型能让机器人建立对物理世界的底层理解,预测环境动态变化,并因此拥有生成大量高质量合成数据的潜力,有效缓解数据稀缺 1
  • “Action First”的范式革新:招商局集团AI首席科学家张家兴尖锐指出,具身智能不应沿袭LLM到VLM的路径,而是需要一个完全属于自己的架构。他认为,人类智能的进化是“先有动作,再有视觉,最后才有了语言”,VLA在视觉与动作之间夹带语言,并不符合人类操作本质。他期待Vision First或Vision Action First的新多模态大模型架构 2。清华大学助理教授赵行也深表赞同,提出需要一个平行于大语言模型的**“Large Action Model”**,它依赖视觉,在此基础上再加入语言,这更符合生物进化的规律 2
  • 闭环学习与具身智能的反哺:赵行强调,具身模型应是闭环模型,而非大语言模型那种一问一答的开环模式。机器人能通过动作获得即时世界反馈,并即刻调整 2。智元机器人罗剑岚则认为,最终会是一个包含VLA(未来形态)、世界模型和强化学习的一体化系统 2。自变量创始人王潜提出更具前瞻性的洞察:他认为,未来5至10年,来自具身、以物理世界数据训练的多模态模型,有可能反过来主导并“吞并”今天以虚拟世界数据为主的多模态模型。这符合人类通过有限但具身化的交互感知,从而抓住物理世界规律的认知模式 2。Transformer作为跨模态Attention机制的通用性虽被肯定,但其在具身输出上的不匹配性,也意味着架构的适配性仍是核心挑战 3

产业化破晓:落地挑战、商业逻辑与资本驱动

尽管前景广阔,但具身智能的产业化落地仍处于“破晓”时刻,面临诸多实际挑战。华为云指出,即使是“打螺丝”这样看似简单的工业任务,机器人当前的成功率仍远低于90%的商用要求 1

  • 落地导向的商业策略:加速进化程昊将“能否落地”作为决策的第一性原理,表明了行业从纯粹技术探索向实际应用转化的迫切。早期落地可能以分层Agent模式,解决如“拿快递、拿箱子”等简单任务,从而积累价值和数据 2。势乘资本合伙人刘英航观察到,头部具身智能企业正联合场景方攻克复杂挑战,同时也在商业表演、导览、教育科研等领域寻找初期商业化机会 1
  • “卖铲人”模式与生态构建:华为云等巨头正积极构建具身智能生态和端到端工具链,成为“卖铲人”,旨在提供数据生产、模型训推、评测的闭环平台,解决数据标准、无损压缩、算力卸载等基础设施问题 1。这种模式在产业早期尤为关键,能降低技术门槛,加速行业发展。
  • 资本的理性回归与长期价值:资本市场对具身智能的热情高涨,但投资逻辑已从“看人投团队”到“看demo投项目”,再转向**“看落地”** 1。自变量王潜的“从长周期上给客户和消费者创造真实价值”的第一性原理,映射了资本对可持续商业模式的追求 2。工业场景因其明确的约束条件和较低的泛化要求,被视为最有可能率先突破的领域;而娱乐场景则可能通过差异化体验迅速打动消费者,形成商业闭环 1

超越范式:具身智能的终局想象与对人类文明的启示

具身智能的这场“非共识”之争,本质上是人类智能体设计和物理世界理解的深层探索。它的终局,可能远不止于一个能完成任务的机器人,而是对人类认知、社会结构乃至文明进程的颠覆性重塑。

未来的具身智能,或将不再是一个单一模型,而是一个VLA、世界模型、强化学习等多种技术有机融合、一体进化的系统 2。这个系统将通过海量机器人公民在物理世界中的交互,不断产生数据,形成一个庞大的“具身智能互联网”。它将不再依赖虚拟世界的训练数据,而是直接在物理世界中学习并抓住时间与因果的规律,形成一套平行于或甚至超越人类基于虚拟数据构建的世界观。

这种对物理世界的深层理解,不仅能让机器人具备强大的通用操作能力和决策能力,更可能反哺我们对智能本质的认知,甚至重新定义“常识”和“本质规律” 2。当机器能够主动感知、交互并自主发现物理世界的奥秘时,我们将迎来一个由智能体主导的**“机器觉醒”时代** 4。这将深刻影响我们的工作方式、教育模式和社会分工,人类与机器的共生关系将进入前所未有的深度。

然而,随之而来的伦理挑战和社会适应问题也需未雨绸缪。如何确保这些拥有自主感知和决策能力的具身智能系统安全、可控、符合人类价值观,将是横亘在技术发展前方的重大课题。这需要跨学科、跨国界的共同努力,在技术狂飙突进的同时,保持对社会影响的深度审视与哲学思辨,方能引领具身智能走向真正造福人类的未来。

引用


  1. 模型、数据、落地之争:具身智能来到“破晓”时刻 - OFweek·OFweek·王一粟(2025/11/24)·检索日期2025/11/24 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 8位具身智能顶流聊起“非共识”:数据、世界模型、花钱之道·未知出版物·富充, 苏建勋(2025/11/24)·检索日期2025/11/24 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  3. 一篇具身智能的最新全面综述!(上) - 智源社区·智源社区·郑程睿(2024/10/29)·检索日期2025/11/24 ↩︎

  4. 首届具身智能机器人大会定档11月,同期举行VLA、世界模型等三场研讨会!·智东西·未知(2025/10/11)·检索日期2025/11/24 ↩︎