TL;DR:
在世界人工智能大会(WAIC)的聚光灯下,“伯克利四子”齐聚一堂,揭示了具身智能迈向通用智能的深层挑战与前瞻路径。核心突破将围绕海量高质量数据获取、结合“世界模型”的具身VLA算法演进,以及从单一智能体走向多模态、多智能体协作的未来生态,预示着机器人将从工具进化为具备高度自主性的物理Agent,深刻变革人类社会与商业格局。
2025年世界人工智能大会(WAIC)期间,一场由上海期智研究院(由图灵奖得主姚期智院士创立)主办的“人工智能交叉科学论坛”吸引了全球目光。这场论坛罕见地汇聚了国内具身智能领域的“伯克利四子”——吴翼、高阳、许华哲和陈建宇。他们不仅在学术界享有盛誉,更身兼具身智能初创企业高管或大型科技公司首席科学家之职,此次同台,无疑为具身智能的未来发展描绘了清晰的技术路线图和商业远景。他们的洞察力超越了简单的技术汇报,深入探讨了该领域的根本性挑战:如何突破数据瓶颈、提升机器人的复杂任务处理能力,以及VLA(视觉-语言-动作)算法的演进方向。
具身智能的根本瓶颈:数据与泛化
具身智能的本质在于让AI与物理世界进行有意义的交互,而其发展进程中面临的首要且最棘手的挑战,便是数据的匮乏与质量问题。正如千寻智能联合创始人高阳所指出,当前机器人领域公开的最大数据集不足百万条轨迹,与支撑大语言模型(LLMs)的万亿级文本数据量存在“好几个量级”的鸿沟。这一数据鸿沟,严重制约了具身智能体的泛化能力,使其在面对未曾见过的复杂场景时表现出“背诵式”智能的局限性1。
星动纪元创始人陈建宇提出了**“具身智能数据金字塔”模型**,为解决数据瓶颈提供了多层次的视角:
- 塔尖:遥操作采集数据 (数万小时量级),质量高但成本昂贵,难以规模化。
- 中间层:人类行为数据 (百万小时量级),通过VR/智能眼镜等终端采集人类第一视角数据,是弥补数据缺口的关键。
- 底层:互联网广泛数据 (千亿小时量级),如YouTube视频,量大且多样,但与具身动作关联性弱,且缺乏物理交互数据。
许华哲,星海图联合创始人,则更进一步批判性地指出,当前数据采集技术路线或多或少存在问题,“多的数据不好,好的数据不多”。他提出了具身智能数据Scaling的**“坐标轴理论”**:横轴为World Sampling(在不同场景下学习相同任务),纵轴为Path Sampling(在同一场景下通过不同路径完成任务)。他认为,具身智能很难沿着理想的斜线向上行进,因为所需数据量巨大。因此,短期内可能需要先沿着其中一个轴做深,再寻求另一轴的突破,而非盲目追求数据量的全面覆盖。这反映了对数据效率和策略性采集的深刻思考。
突破VLA边界:从模仿到世界模型与多模态感知
当前的具身智能,尤其是基于VLA(Vision-Language-Action)模型的范式,本质上是在进行纯粹的克隆式学习2。这意味着模型只能从大量的历史人类行为数据中进行模仿,缺乏举一反三的能力,也难以超越人类的表现。要实现通用具身智能,必须超越这种模仿学习的范式。
陈建宇提出,具身智能需要参考人类的学习方式,即:
- 建模整个世界,形成物理世界认知(“世界模型”):如同人类即便没有大量数据教学,也能凭借对物理规律的理解做出判断(如过十字路口减速)。通过结合VLM的理解能力与世界模型的生成能力,可以构建统一模型,如基于Diffusion视频生成模型的PID模型和Video Addiction Policy,通过预训练海量互联网视频数据来提升泛化性。
- 向人类学习“强化学习”:模仿学习虽然重要,但不足以掌握高难度技巧。机器人需要在自身与环境的交互中,根据反馈不断调整和优化,达到接近完美的成功率。
高阳则强调了多模态感知的重要性。当前VLA模型主要依赖视觉,但人类在进行复杂操作时,触觉等其他模态同样关键(如不看也能插U盘)。他提出了**“TactileVLA”**概念,将触觉融入VLA模型,使得机器人能更精确地感知物体属性(如拿起不同材质物品的力度),并进行更深层次的判断和修正。
更具哲学思辨深度的是,高阳引入了人类大脑**“快与慢”思考模式**(System 1与System 2)的概念,并提出了OneTwoVLA模型。System 1是直觉、快速的反应,System 2是系统性、慢速的思考。当机器人面对复杂任务(如调酒或涮火锅),OneTwoVLA能够自主判断任务的复杂性,决定是直接执行原子动作(System 1),还是停下来进行反思性分解和提问(System 2),从而在结构层面更好地分解任务,提升成功率。这标志着具身智能开始从简单的行为模仿走向具备“思考”和“决策”能力的更高层次。
迈向AGI具身智能体:规划、协作与生态构建
蚂蚁集团强化学习实验室首席科学家吴翼提出了一个更宏大的愿景:具身智能的未来不仅仅是高性能的机器人,更是具备Agent(智能体)能力的具身智能体。他以大语言模型从被动应答到主动执行的Agent化演进为例,预测机器人也将经历类似过程,从执行简单指令到自主完成抽象、复杂的任务,并能自我调用工具。
一个具备AGI(通用人工智能)潜力的具身智能体,应拥有规划、记忆调整和使用工具三大核心能力。吴翼描绘了一个场景:机器狗在关灯时发现箱子不够高,能够自主判断出错,并从错误处重新规划,寻找更合适的工具。这其中,软件智能体负责逻辑推理和代码生成,硬件则与现实世界交互,形成一个闭环的**“感知-决策-行动-反思”**循环。
更具前瞻性的是,吴翼预言未来将是多具身智能体(Multi-Agent)的世界。他以“机器狗足球队”为例,畅想多个具身智能体之间能够进行竞争与合作,甚至实现人与机器狗之间更深层次的交互。这种设想不仅是对技术协同的展望,更是对未来社会形态中人机共生模式的深刻洞察。开源项目AReaL的推出,也表明了行业正通过构建共享框架来加速这一愿景的实现。
商业化进程与未来图景:规模化与社会渗透
从商业敏锐度的角度来看,这些技术突破的最终价值将体现在其商业化潜力和对产业生态的重塑。陈建宇明确指出,通用人形机器人成本下降的关键在于规模化,而非简单降低自由度。他预测,通用人形机器人因其更广泛的应用场景而能实现大规模量产,从而大幅降低成本,形成良性循环,而专用机器人则因受限场景难以实现规模化。星动纪元最新发布的星动L7,1.7米的身高和类人形态,正是为了更好地收集人类多样性数据,并服务于未来通用机器人的规模化应用。
陈建宇对具身智能的未来发展描绘了三个阶段的宏大图景,体现了深刻的未来主义视角:
- 第一阶段:机器人进入生产力系统,贡献超过一半的GDP,生产手机、汽车等。
- 第二阶段:机器人成为最大的终端,具备自我制造能力。
- 第三阶段:机器人帮助人类拓展能力边界,如火星移民,甚至布满整个宇宙。
这不仅仅是技术演进的预测,更是对机器人将如何重塑全球经济结构、生产关系乃至人类文明进程的哲学思辨。从生产力工具到自我复制的智能体,再到人类能力的延伸,具身智能的崛起将深刻影响就业市场、社会结构乃至人类的存在意义。
综合来看,“伯克利四子”的见解共同指向了具身智能的下一步:它将不再是实验室中的单一模型或特定任务的执行者,而是通过突破性数据策略、融合世界模型的算法创新,以及迈向Agent化和多智能体协作的演进路径,最终成为具备高自主性和泛化能力的物理智能体。这一进程将伴随着成本的指数级下降和应用场景的爆炸式增长,从工业物流分拣到高动态全身运动(如跳舞),再到未来家庭中的人机共生,具身智能正以不可逆转的趋势,从数字世界走向物理世界,为人类文明的未来书写新的篇章。