TL;DR:
作为北京大学副教授与“智在无界”创始人,卢宗青在具身智能行业普遍追求“软硬一体”的狂热中,选择了一条通向“纯大脑模型”的孤独路径。他坚守“软硬分化”的逻辑,利用超规模的人类第一视角视频数据,试图为跨形态、跨品牌的机器人注入通用的运动基因,并预言2027年将迎来模型能力的真正质变。
北京中关村鼎好大厦,曾是电子产品的集散地,如今已摇身一变成为中国人工智能的“麦加”。这里坐拥着智源研究院、零一万物、银河通用等一众明星机构。在电梯的起落间,关于神经网络和具身智能的非共识,每天都在无声地碰撞。
卢宗青的办公室就坐落在这场风暴的中心。作为北京大学计算机学院的副教授,这位“智在无界”的创始人身上,既有学者的清冷理性,又有创业者的单刀直入。当大多数具身智能独角兽——如智元机器人、星动纪元——正在为“全栈自研”投入数以亿计的资金、打磨沉重的硬件本体时,卢宗青却抛出了一个让行业感到有些冒犯的判断:
“软硬分化。”
他坚持“智在无界”只做模型,不做硬件。这种选择在2025年甚至2026年初的国内一级市场,被普遍视为一种“偏见”的挑战。但在卢宗青眼中,这不仅是商业上的轻量化选择,更是一场关于“机器人灵魂”的深刻本质回归。
荒野中的“觉醒时刻”
卢宗青进入具身智能领域的契机,带有一种理性的偶然。
2023年,当大语言模型(LLM)正处于最狂热的时刻,卢宗青正带着团队在开放世界游戏《荒野大镖客2》中进行实验。他试图让多模态大模型指挥主角在这个复杂的虚拟世界里生存。然而,现实却给了他沉重的一击:即便拥有最先进的语言理解能力,模型在面对视觉空间交互和具体动作执行时,表现得像个笨拙的婴儿。1
“我当时意识到,模型交互能力弱,根本瓶颈在于缺乏对视觉和空间的理解,”卢宗青回忆道。他意识到,要让AI真正“活”过来,它必须与真实世界交互,必须拥有“具身”的能力。1
这次虚拟世界里的挫败,促使他从纯粹的计算机视觉与强化学习研究,转向了更具挑战性的领域——为物理世界的机器人打造一颗通用的“大脑”。
但他没有像大多数人那样,先去造一个看起来酷炫的机械躯壳。在他看来,技术尚未收敛的阶段,把宝贵的资源分散在自己并不擅长的硬件制造上,不仅是低效的,更是危险的。“我不想把资源分散在不擅长的硬件上,”卢宗青直言,这种克制在融资估值至上的创业圈显得尤为罕见。1
挑战行业的“全栈迷信”
在具身智能行业,有一种根深蒂固的逻辑:只有控制了硬件,才能掌握最优的训练数据,进而优化出最好的模型。这导致了Figure、特斯拉Optimus等巨头都在走“全栈”路线。在美国,软硬双修的Figure估值曾高达390亿美元,而只做模型的Physical Intelligence(PI)估值仅为其零头。1
卢宗青对此却有不同的计算方法。他算了一笔“经济账”:自研模型每年的人力和算力成本至少数千万甚至上亿元,而对于大多数中小型硬件厂商来说,外采一个成熟的“大脑”授权费仅需几万元。“具身智能本体公司做不做模型,本质上是个商业行为,而非技术必须。”1
他曾在2025年的暑假,深入多家工厂调研,发现那些号称“工业落地”的机器人,大多只能在特定的、被精细设计的场景(POC)里完成极其有限的动作。核心卡点在于泛化性——换一个形状的零件,或者换一个光照环境,机器人就“傻”了。1
“行业对‘纯软’这件事有比较大的偏见,国内外皆然。”卢宗青说。这种偏见源于对不确定性的恐惧,投资者更愿意把钱投给“看得到、摸得着”的实体。
但2026年初,Skild AI以140亿美元的估值晋升千亿独角兽,为卢宗青的路线提供了最有力的侧证。这证明了资本市场开始重新定价“具身大脑”的价值。1
用人类的眼睛,教机器人走路
为了解决“泛化性”这一顽疾,卢宗青祭出了他的核心武器:超3万小时(并持续增长中)的预训练数据集。1
不同于传统的“遥操作采集”(人操控机器人采集数据),卢宗青独树一帜地采用“人类动作视频”方案。他们给工厂工人和志愿者戴上头戴式摄像头(GoPro等),录制第一视角的手部动作视频。
“这种方式成本极低,规模巨大,且能完整记录人类复杂操作的逻辑,而不是机器人那生硬的模仿,”卢宗青解释道。通过他设计的自动化数据处理工作流,系统能自动将二维视频中的关节运动标注并投影到3D空间,转化为机器人可理解的指令。1
他将这套逻辑比喻为人类的“进化基因”。人类并非生来就能打网球或弹钢琴,但基因赋予了我们基本的运动潜能。卢宗青的Being-H模型,就是赋予机器人一种“开箱即用”的通用运动基因。1
在一次演示中,智在无界的Being-H0.5模型展现了惊人的跨本体能力:原本用宇树G1机器人采集的快递扫码数据,在从未见过的PND Adam-U机器人身上,首次上机便成功执行。这种“异体移植”的成功,正是卢宗青“通用大脑”梦想的微小注脚。1
2027:等待“涌现”的时刻
尽管已经在天使轮获得了拉卡拉、联想之星等机构的数千万注资,卢宗青依然保持着学术背景带来的那份审慎。
他给自己的灵巧手大模型命名为“Being-H 0.5”,即便外界有人为了营销将其套壳大厂模型,他依然坚持从底层训起。“我们现在认为能力还不到1.0,还在0.5的阶段。”1
面对当下火热的“世界模型”概念,卢宗青也表现出了少有的冷静。他并不认为部署一个复杂的世界模型到端侧是当下的最优解,因为那将耗费极其恐怖的算力。他更愿意把精力放在如何将数据规模推向100万小时。1
“2027年,当数据量达到100万小时量级,模型能力可能会产生质变,”卢宗青预言,这种变化绝非循序渐进,而是像GPT-3.5诞生那一刻的“涌现”。1
在鼎好大厦的深夜里,卢宗青依然在死磕那些复杂的算法细节。他不避讳谈论商业竞争,也不避讳承认当下的局限。对他而言,具身智能不是一场展示Demo的表演秀,而是一场向着AGI(通用人工智能)物理化迈进的长征。
他正试图向世界证明:机器人的价值,不在于它那昂贵的钢铁躯壳,而在于那一层看不见、摸不着,却能感知万物、精准操控的数字“灵魂”。