赵行:具身智能的静默拓荒者,数据深耕与未来远见

温故智新AIGC实验室

TL;DR:

在喧嚣的具身智能浪潮中,星海图首席科学家赵行以一种近乎“反潮流”的姿态,深耕于“脏活累活”的数据工程,坚信高质量数据才是实现具身智能泛化能力的关键。他将学院派的严谨与产业界的务实融为一体,以深远的技术洞察和开源贡献,静默而有力地推动着整个行业向真正的智能涌现。

2025年的世界机器人大会(WRC),人头攒动,炫目的机器人Demo此起彼伏,如同一场高科技的华丽盛宴。然而,在诸多“敲锣打鼓”式的表演中,星海图的展位却呈现出一种异样的静默——一台机器人正一丝不苟地执行着铺床任务。围观者中不乏困惑的眼神,他们难以理解,为何人类轻而易举的动作,会成为一个公司大费周章展示的焦点。

“铺床是个集各种难度于一身的长程任务。”星海图首席科学家、清华交叉信息学院助理教授赵行,在展会现场对《智能涌现》解释道,语气中带着一种学者的沉稳与技术人的自信,“它考验了机器人柔性物体操作、模型的全身控制等能力,以及在各种杂乱床面上完成整理的泛化性。”随后,工作人员随意弄乱被子,一位观众下达指令,机器人随即开始工作。它调用全身23个自由度,底盘移动,躯干升降俯仰,机械臂抓取、外拉、展平……每一个看似简单的动作,都蕴含着复杂的全身协调与环境感知。这场演示的背后,是星海图新发布的VLA(Vision-Language-Action,视觉-语言-动作)端到端基础模型G0。这并非一场刻意追求“酷炫”的表演,而是赵行和星海图团队对具身智能核心问题的深刻理解与实践。

技术突破的背后:从展台到深层基石

星海图G0模型的诞生,源于赵行对具身智能发展路径的深刻洞察。他坦言,过去的小模型虽能做展示,但难以规模化应用,真正要获得泛化能力,必须走向大模型。这一判断,深植于他对AI“第一性原理”的信念,即大语言模型领域已被验证的“Scaling Law”(规模法则)——数据量变能够引起模型能力的质变,这一规律在机器人领域亦应复现。

模型的泛化性,是具身智能从实验室走向真实世界的关键瓶颈。赵行将其拆解为三大难点:一是操作对象的异质性,从葡萄到番茄,从软到硬,大小各异;二是场景和环境的多样性,即使同一物品,在不同环境布局下操作难度迥异;三是任务和动作的复杂性,例如抓取一张薄纸,需要先“抠边”再拿取,这种难以语言定义的精微动作,恰是人类的本能,机器人的痛点。他坚信,只有大模型才能跨越这些鸿沟,赋予机器人如人类般下意识的泛化能力。

信仰与坚持:数据为王的“脏活累活”

自2024年底决定投身具身大模型以来,过去十个月,赵行将主要精力倾注于一项“脏活累活”——数据工程。这是一个与实验室科研截然不同的领域:“科研需要聪明的大脑,有时一个好的算法几天就能想出来;但数据采集是一个非常基础的工作,需要坚持。”他口中的“脏活累活”,涵盖了采集员培训考核、真机遥操作采集、数据上传、清洗、标注等一系列繁琐而耗时的工作。由于具身智能领域尚处于早期,“整个链路尚未形成标准化流程”,他甚至需要亲自处理一线采集员的反馈。一位星海图的同事透露:“赵老师是我们的加班搭子,经常半夜还能看到他。”这句话背后,是这位科学家日以继夜的投入与执着。

在赵行看来,高质量数据是具身智能大模型泛化能力的基石,而高质量的定义在于真实性多样性。他举例,很多团队构建的“家庭环境”窗明几净,与真实世界中物品乱堆乱放的情况大相径庭,因此星海图坚持在真实环境中采集数据。同时,数据的“乱的多样性”也至关重要,如同训练大语言模型需遍历整个互联网语料,具身智能亦需尽可能采集覆盖广泛场景的数据,而非仅专注于某一个任务。为此,星海图定义了家庭、酒店、工厂和仓库、超市、餐厅五类真实场景进行数据采集,希望找到机器人真正有价值的应用之地。

此次G0模型发布的同时,星海图还即将开源500小时的开放世界真机数据集。这一举措并非权宜之计,而是源于赵行深厚的学术背景与“贡献越多,收获越多”的信念。他回忆起在麻省理工求学期间,曾与其他同学历时两年构建了著名的ADE20K图像分割数据集,其影响力至今仍在。1 他希望通过开放数据集,为具身智能行业提供一个高质量的基准和评价标准,让不同团队能在统一数据上比较算法、验证效果,共同推动技术进步。同时,这也能大幅缩短从购机到模型部署的开发链条,降低重复采集和标注成本,帮助高校、研究所与企业更快进入实验与迭代阶段,构建一个共同开发的生态群体。

战略视野:工业化路径与未来探索

尽管具身智能领域技术路线众多,赵行对星海图的工业化路径有着清晰的判断。他认为,当前的VLA范式是一个“很合理的路径”,因为它能通过遥操作完成生活中九成的任务。他承认触觉等更多模态的引入是未来趋势,但现阶段,视觉传感器因其百年的工业化发展、成熟的工程化与标准化,成为大规模数据采集的首选。他认为,当触觉传感器标准化后,自然会被纳入VLA框架。

在VLA大框架下,星海图选择了“快慢双系统”的技术路线,即系统层面的“慢思考”与“快执行”。这一灵感来源于自动驾驶的经验。赵行解释,单一系统会因思考速度限制运动速度,或模型参数量过大难以部署。更重要的是,从第一性原理来看,人类的条件反射与深度思考也以不同频率协同工作,这是一个更高效、更节能的系统。他强调,这两个系统并非独立存在,而是一种“你进我退”的动态连通关系,随着技术发展,它们将愈发紧密,最终实现类似人脑分层架构的自然协同。

对于当下热议的“世界模型”,赵行认为这是一个“非常面向未来、重要的技术”,星海图也持积极探索态度,但它尚未进入工业化阶段。他将其视为一个典型的“靠聪明头脑驱动的工作”,需要定义出最合理的算法来建模物理世界的运动规律。如果能实现这一点,机器人便无需再模仿学习,可直接预知动作后果。然而,让机器人预知未来“可能比让机器人规划现在的动作更难”,赵行笑言这有点像“为了解决一个难题还要创造另一个难题”。因此,他认为这非常适合最聪明的、最前沿的实验室去探索。

学术滋养与产学协同:一位科学家的归国之旅

赵行的人生轨迹,映射着中国AI领域的蓬勃发展。在麻省理工毕业、留美工作后,他于2020年受姚期智先生邀请,回国在清华交叉信息研究院任教。他认为,清华叉院为年轻学者提供了巨大的空间和自由度,不限制研究方向,这“很有利于人才储备”,使得当新的技术产业机会来临时,能够“涌现出了很多的人才”。

在清华任助理教授,同时在星海图担任首席科学家,赵行是当前中国AI领域“产学结合”的典型代表。他认为,机器人领域当下的浪潮,正是产学协同的最佳体现,许多高校教师投身创业,是因为他们此前在这一方向的探索和积累已达成熟阶段。另一方面,产业的发展能够解决学术领域在机器人学习中遇到的痛点——比如数据规模的限制。“之前在学术领域,虽然大家在尽量做标准化,但因为规模还是小一些,所以会比较难。但是产业发展会带来数据等方面在量级上的提升,量变会促进质变,也可以使学术进展有爆发式的增长。”他总结道。赵行以其深耕基础、着眼未来的学术与产业双重视角,正在中国具身智能的宏大画卷上,静默地描绘着坚实而富有远见的笔触。

引用


  1. 热闹的Demo不等于泛化能力,具身智能胜负仍在数据量·36氪·富充(2025/8/13)·检索日期2025/8/13 ↩︎