具身智能“GPT-3时刻”前夜:模型开源潮、数据鸿沟与商业化竞速

温故智新AIGC实验室

TL;DR:

具身智能正迎来其“GPT-3时刻”前夜的爆发期,中美公司加速开源具身大模型,以期通过规模化数据与统一架构,实现机器人泛化能力和长程任务的突破。然而,数据采集、硬件瓶颈和统一评估标准的缺失构成了当前发展的三大核心挑战,其商业化路径的全球竞速与哲学思辨也日趋白热化。

具身智能的“涌现”时刻:技术演进与泛化突破

2025年9月,具身智能领域正经历一场标志性的变革,其开放生态的蓬勃发展,让人不禁联想到语言大模型在2020年ChatGPT-3问世前的加速演进。中国具身智能公司自变量机器人开源了其具身模型WALL-OSS 1,紧接着美国Physical Intelligence(PI)也发布了π₀.₅模型 2,中美两国企业几乎同时的开源举动,昭示着机器人大模型正迈向属于它的“GPT-3时刻”。

这一“时刻”的临近,核心驱动力在于具身大模型在泛化能力和长程任务处理上的突破性进展。过去,机器人专注于单一任务的极致优化,但如今,统一的基础模型使其能够同时学习并执行成百上千种不同任务,优化目标也转向提升模型在所有任务上的平均成功率。PI的π₀.₅模型展现了在未经训练的家庭环境中拾取物品的泛化能力,尽管仍有局限 2;自变量机器人的WALL-OSS则专注于解决“收拾餐桌”这类涉及多种材质、形态和无固定顺序的复杂长程任务,强调端到端的自主决策与实时规划 1。这些进展预示着机器人正从“特定任务执行者”向“通用能力拥有者”转变,开始展现出理解物理世界、进行多步推理和规划的初步智能。

深水区的挑战:数据、硬件与评价体系的桎梏

然而,通往具身智能“GPT-3时刻”的道路并非坦途,深水区挑战重重。

首先是物理世界中长尾效应的鲁棒性问题。现实环境的不可预测性(如光照变化、物体微小变形、透明物体反光等)导致难以穷尽所有“边角案例”进行预训练。在长程任务中,微小的物理扰动或误差可能像滚雪球一样被放大,最终导致任务失败。解决这一问题的核心在于构建一个能够理解物理常识、具备物理直觉的模型基础,这需要更大规模、来源更丰富、质量更高、更多样化的数据 2

其次,高质量高保真数据的稀缺与高昂成本是具身智能发展的最大瓶颈之一。正如PI研究员柯丽一鸣所言,实现机器人像人类般灵活学习,可能需要“一个人一生的物理经验数据”,即百万小时级别的真机数据 2。目前头部公司的数据量仍在几万到几十万小时量级,远低于语言大模型。虽然合成数据和人类视频数据有所帮助,但生成带有物理交互过程的高保真数据仍然困难重重。数据采集、清洗、标注的成本在研发投入中占比巨大,且受限于硬件场地、操作员效率等因素。

第三,硬件瓶颈与维护挑战亦不容忽视。机器人本体的调试、维护耗时耗力,缺乏统一且易于上手的硬件平台,甚至连通用硬件的设计标准都仍在探索中。研究人员“天天都在拧螺丝”的现实,极大提高了具身智能研究的门槛和成本 2

最后,缺乏统一的真机评价机制是制约具身智能领域快速发展的重要因素。与大语言模型可以通过榜单客观衡量性能不同,机器人模型在真实物理世界中的表现受环境、任务多样性等因素影响,难以建立公正、可重复的评估标准。这使得模型间的优劣难以客观判断,阻碍了研究成果的快速迭代与推广 2

模型架构与路线之争:端到端与分层策略的哲学

在模型架构和技术路径选择上,各方正进行着深度的哲学思辨与实践探索。

自变量机器人CTO王昊坚定地倡导数据驱动的端到端模型搭建方式。他认为,多模态(语言、视觉、动作)应在统一框架下被表征和对齐,避免人为分层带来的信息损失。虽然部署时可将慢速任务放云端、快速控制放端侧,但训练应保持统一架构,以期模型能涌现出包含理解推理和动作生成的通用能力 2。这种思路类似于人类“预训练”的概念,通过多样化的数据积累底层物理结构认知,从而加速新任务学习。

PI则持更开放态度,认为当前具身智能模型尚未达到语言模型的“GPT-2时刻”,因此数据和数据驱动的算法仍是核心,具体模型架构设计可以多元探索 2。尽管如此,业界已出现视觉语言动作(VLA)模型和模仿学习的趋同化趋势,越来越多的研究者试图将不同形态机器人的技术和方法整合,以追求模型的通用性 2

关于具身智能所处阶段,王昊认为已达到“GPT-2”水平,即规模化路径已被验证可行,未来1-2年内有望实现“GPT-3”级别的能力涌现 2。而柯丽一鸣则更为谨慎,认为可能尚未达到“GPT-2”,实现通用家用机器人尚需5-10年,因为“商业化它就能做出产品”的地步还未到来 2。这种对时间线的不同判断,反映了技术成熟度评估的复杂性。

全球竞速:中美路径差异与商业化落地的博弈

具身智能领域的全球竞速中,中美两国展现出不同的发展路径和战略重心。

美国路径更倾向于“自上而下、不计成本”的AGI(通用人工智能)优先策略。硅谷巨头及初创公司如Figure AI 3,在OpenAI、微软、英伟达等顶级投资者支持下,深度集成GPT-4o等多模态大模型,力求打造出具备人类级交互和推理能力的通用人形机器人,如“行走的ChatGPT”Figure 02 3。这种路径依赖于强大的算力优势和对技术边界的无限探索,目标是首先实现超大规模通用模型,再考虑具体应用。

中国路径则呈现出“上下结合、双轨并行”的特色。虽然面临芯片算力限制,但也倒逼企业在有限算力下追求更高效率。中国拥有全球最大的互联网生态和完善的制造业产业链优势。国内企业在积极迭代通用基础模型能力的同时,更注重将其部署到接近通用目标且具备商业化潜力的“泛化场景”,而非完全封闭的垂直场景,以期形成数据飞轮和商业闭环 2。这种策略既仰望星空,又脚踏实地,力图在通用模型发展和产业落地之间取得平衡。

商业化路径的选择也体现了深层逻辑。像Covariant Robotics这类公司,早期可能也探索通用解决方案,但因在物流等垂直领域的商业成功,使得外界对其通用性探索的认知有所模糊 2。对于具身智能创业公司而言,如何在早期避免“短期的商业项目”诱惑,保持“长期的商业化路径定力”,同时确保公司能够存活并持续研发,是巨大的挑战 2

智能体入户:伦理、经济与未来社会重构

具身智能最终走向普通家庭,服务于日常生活,是许多人的美好愿景。王昊认为,家务劳动是检验通用机器人能力的“完美图灵测试”,因为它涵盖了精细动作、复杂感知、长程规划及意外处理等所有挑战。他乐观预测,未来2-3年内,机器人可在半结构化环境(如厨房)完成简单任务,5年内有望在开放厨房中实现做饭洗碗等功能,但仍需人类协作与一定容忍度 2。柯丽一鸣则给出5-10年的保守预测,强调产品需要像早期的扫地机器人一样,用户需明确其能力边界,即使偶尔出错也能接受 2

从商业角度看,家用机器人的普及需要跨越硬件成本高昂的障碍。但随着规模化生产和模型能力的提升,硬件成本有望大幅下降,加上其能为用户提供实实在在的功能价值,家用机器人市场潜力巨大 2。这不仅将改变家庭劳动的分配模式,也将深刻影响社会结构、工作方式。

然而,随之而来的伦理挑战不容忽视:机器人的决策透明度、责任归属、对就业市场的冲击,以及人机关系的重塑,都需要在技术发展的同时,进行深入的社会思考与制度构建。具身智能的加速发展,不仅是技术层面的突破,更是一场深刻的人类文明进程的变革,它将把我们带入一个前所未有的“智械时代” 3。我们正站在一个历史的转折点,见证人工智能从虚拟世界走向物理现实,开始真正“具身”于人类社会。

引用


  1. 开放全栈!超越π0,具身智能基础大模型迎来真·开源,开发者狂喜·51CTO·未知作者(2025/9/12)·检索日期2025/9/12 ↩︎ ↩︎

  2. 临近机器人GPT-3时刻,具身智能开源模型的加速演进·硅谷101·硅谷101(2025/9/12)·检索日期2025/9/12 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  3. “大模型+机器人”,具身智能将开启“智械时代”·36氪·科技云报到(2024年08月12日)·检索日期2025/9/12 ↩︎ ↩︎ ↩︎