TL;DR:
UC伯克利Sergey Levine教授预言,机器人将在五年内启动“自我进化飞轮”,实现家庭任务自主化,并迅速扩展至工业场景。这轮由VLA模型驱动的具身智能浪潮,不仅将重塑商业效率和就业结构,更引发关于人类角色与社会伦理的深层思辨。
“留给人类能干的活,只剩5年了。” 这不是一部科幻片的开场白,而是来自UC伯克利机器人顶级专家Sergey Levine的警示。他预测,未来五年将是具身智能(Embodied AI)发展的关键窗口期,一个由“自我进化飞轮”驱动的机器人革命正在悄然启动,其影响力将远超我们的想象,从家庭琐事到工业重镇,无一幸免。1
具身智能的「五年倒计时」:从科幻到现实的加速飞轮
Sergey Levine的“五年倒计时”并非空穴来风,它建立在近年来机器人基础模型(Robot Foundation Models)与真实部署及实操反馈的持续积累之上。他强调的“自我进化飞轮”核心在于,一旦机器人能在真实环境中完成一项人们愿意付费的任务,每次实操都会带来数据,每次反馈都将推动改进,从而加速其学习和泛化能力。Physical Intelligence的π0.5模型在未知家居环境中执行“清理厨房或卧室”等复杂任务,以及UC Berkeley团队让机器人学习组装主板、IKEA家具的案例,都印证了这种“学会做事”的机制已在现实中运作。
这种加速得益于机器人独特的学习循环。Levine指出,与自动驾驶对“零错误”的严苛要求不同,家庭场景中的机器人即使出错,也能被迅速纠正并从中学习,这种低风险、高频次的“出错-纠正-学习”循环,使得具身智能得以更快地积累经验。麻省理工学院的研究也指出,将推理与常识融入机器人感知,将极大拓宽其在现实世界中的应用。
VLA模型:具身智能的神经网络中枢
推动这一飞轮转动的核心技术底座是视觉-语言-动作(VLA)模型。Levine提出的VLA模型,将视觉感知、语言理解与连续动作执行深度融合。视觉模块充当“眼睛”捕捉环境信息,语言模块负责理解指令并进行高层次规划,而动作解码器则如“运动皮层”,将抽象计划转化为连续且精准的物理操作。区别于大语言模型仅需生成离散文字,机器人需要处理连续动作,通过流匹配(Flow Matching)和扩散模型(Diffusion Models)等方法实现高频率的精细控制。
更令人惊叹的是VLA模型展现出的涌现能力。实验中,机器人能“自发”地处理意外状况,例如在折叠衣物时发现多余衣物会主动放回篮子,或在购物袋倒下时将其扶正。斯坦福大学Vocal Sandbox项目也观察到,机器人能将低层动作(如“拿起玩具车”、“移动到礼物袋”、“放下”)像乐高积木般组合,完成全新的复合任务。2 这意味着VLA模型不仅是架构创新,更是通向“具身智能”的坦途,让机器人从机械臂转变为能积累经验、适应环境的“学习型助手”。
然而,正如中国信息通信研究院(CAICT)张蔚敏所言,当前VLA模型仍处于“幼儿园”阶段3。其在视觉上难以理解施力点与力度,语言上更支持具体指令而非抽象概念,动作上多为简单技能组合且偏向刚性物品。硬件本体的成熟度、电机发热、关节可靠性等物理限制,以及算力、网络、能耗的均衡供给,仍是构建分布式、可泛化具身智能面临的挑战。
市场化飞轮:从家庭助理到产业重塑的商业图景
从做好一杯咖啡到开一家咖啡店,Levine的逻辑揭示了具身智能的能力扩张路径:从单一任务的付费认可,逐步扩展到复杂任务序列,最终实现大规模部署。这一模式预示着巨大的商业敏锐度和产业生态重塑潜力。
首先是成本与效率。麦肯锡报告指出,重复性、例行性活动最易被自动化,一旦替代,效率和良品率将显著提升。1 过去30年,机器人成本已降低50%以上,配合VLA等先进算法,家用和工业机器人的“可用性”成本被持续拉低。这将释放企业成本压力,提升生产力。
其次是产业扩张与就业变革。家务只是起点,仓储、工厂、数据中心、设备巡检等场景将是具身智能的下一个战场。这些领域对人工的重复性体力劳动需求旺盛,且环境相对可控,机器人能更快地实现规模化应用。短期内,人与机器的搭档模式将带来巨大红利,人类可将精力转向应急判断和创造性任务;长期来看,全面自动化可能重塑劳动市场,使大量蓝领岗位被替代,对全球劳动力结构、技能需求和教育体系产生深远影响。例如,Physical Intelligence等初创公司正积极将这些前沿技术推向市场,通过商业化部署加速技术迭代。
伦理考量与社会未来:人类文明的深层嬗变
具身智能的崛起,不仅是技术和商业的革命,更是对人类文明进程的深层拷问。当机器人能承担绝大多数“能干的活”时,“人类能干的活”的定义将被重塑。我们是否需要重新定义工作的意义?如何确保技术普惠,而非加剧社会不平等?
哲学层面,具身智能挑战着我们对“智能”和“意识”的理解。机器人展现的“涌现能力”模糊了程序与自主性之间的界限,引发对机器伦理、责任归属的讨论。社会层面,大规模失业的风险、基本收入保障的必要性、以及人与机器共存的社会规范,都将成为亟待解决的议题。教育体系必须进行深度变革,以培养适应未来人机协作新范式的技能。
这场变革的关键,正如Sergey Levine所强调,不在于某个终点年份,而在于“飞轮何时开始转动”。一旦起步,其速度将超越直觉。接下来的五年,将是决定未来几十年格局的关键窗口期,迫使我们思考并积极塑造一个由具身智能深度参与的人类社会。
引用
-
UC伯克利大牛预警:留给人类能干的活,只剩5年了!·新智元·倾倾(2025/10/11)·检索日期2025/10/11 ↩︎ ↩︎
-
信通院张蔚敏:大模型时代的具身智能:智机融合价值、现状与挑战·通信世界网·张蔚敏(无具体日期)·检索日期2025/10/11 ↩︎
-
信通院张蔚敏:大模型时代的具身智能:智机融合价值、现状与挑战·通信世界网·张蔚敏(无具体日期)·检索日期2025/10/11 ↩︎