超越语言:李飞飞的“世界模型”如何定义AI的具身智能新纪元

温故智新AIGC实验室

TL;DR:

李飞飞的万字长文将“空间智能”确立为AI的下一个十年,核心在于构建能够理解、推理并交互物理世界的“世界模型”。这不仅是技术原理的突破,更将深刻重塑创意产业、机器人技术乃至科学发现的范式,开启AI从语言到具身智能的根本性飞跃,其商业潜力和社会影响不可估量。

在人工智能领域,李飞飞的名字如同其亲手缔造的ImageNet一样,代表着一次又一次的范式突破。当大语言模型(LLM)以其惊人的文本处理能力席卷全球,重新定义了我们与抽象知识交互的方式时,李飞飞却以一篇万字长文,将目光投向了AI的下一个伟大前沿——空间智能(Spatial Intelligence)。这不仅仅是一次技术方向的宣示,更是对AI未来发展路径、商业价值和社会意义的一次深刻哲学思辨和战略布局。她所倡导的“世界模型(World Model)”,旨在让AI超越语言的束缚,真正进入并理解我们所生活的物理世界,实现从“看见”到“推理”,从“感知”到“行动”,从“想象”到“创造”的本质升华。

技术原理与创新点解析:世界模型的核心驱动力

李飞飞的洞察直指当前AI的根本局限:尽管LLM是“文字大师”,却仍是“黑暗中的大师”,缺乏对物理世界的真实经验与根基。空间智能则致力于弥补这一缺陷,其核心是构建世界模型——一种新型的生成模型,能够理解、推理、生成并与语义、物理、几何和动态上都极为复杂的虚拟或真实世界进行交互。

构建真正具备空间智能的AI,需要世界模型具备三大核心能力1

  1. 生成式(Generative):世界模型必须能够生成在感知、几何和物理层面保持一致的模拟世界。这些世界不仅要遵循语义或感知指令,更要在几何、物理和动态层面保持内部连贯性。这意味着模型需要内化物理定律,并能从多维度的潜在表征中,输出一个显式且可观察的世界状态,且其对当前状态的理解需与过去连贯。

  2. 多模态(Multimodal):世界模型的设计必须是多模态的,能够处理图像、视频、深度图、文本指令、手势乃至动作等多种形式的输入。在给定部分信息的情况下,模型应能预测或生成尽可能完整的世界状态,实现智能体与人类通过多样化输入与模型和世界进行交流。

  3. 交互性(Interactive):世界模型必须能根据输入的动作输出下一个世界状态,无论是隐式还是显式表征。这意味着模型不仅能预测世界的下一步演变,甚至能基于特定目标,预测出下一步的动作。这为具身智能提供了行为规划和决策的基础。

这项挑战的广度与深度远超语言模型,因为“世界”所遵循的规则远比语言复杂。地球上的引力、原子结构等无数物理定律都在约束着每一次互动,即使是最具创意的虚拟世界,也由遵循其自身物理定律的空间物体与智能体构成。李飞飞创立的World Labs正致力于克服这些技术壁垒,例如探索新的通用训练任务函数以反映几何与物理定律,利用大规模训练数据(互联网规模的图像和视频、高质量合成数据、深度和触觉信息),并开发新的模型架构与表征学习,例如RTFM(Real-Time Frame Model)这类具备三维或四维感知能力的帧基模型,以实现高效的实时生成和世界持久性。World Labs推出的Marble平台,已初步展示了通过多模态输入生成并维持一致三维环境的能力,为创作者提供了全新的探索、互动和构建工具2

产业生态与商业价值评估:从创意到具身智能的变革

空间智能的商业价值正在沿着清晰的路径演进,并有望颠覆多个核心产业。

  • 创意产业的“Marble”效应:World Labs的Marble平台是空间智能赋能创意最直接的体现。它让电影制作人、游戏设计师、建筑师和各类故事讲述者能够快速创建和迭代完全可探索的三维世界,摆脱传统三维设计软件的沉重负担2

    • 新维度的叙事体验:创作者不再受预算或地理限制,可以凭空创造整个世界,实现更沉浸、个性化的互动叙事。
    • 设计的空间叙事:建筑师可以快速构想结构,在虚拟空间中漫步;工业设计师和时装设计师能瞬间将想象转化为形态,探索物体与人体和空间如何互动,极大加速设计迭代周期。
    • 新的沉浸式和互动体验:结合VR/XR头显等新设备,空间智能将使步入完全实现的多维世界变得如同翻开一本书般自然,开启“元宇宙”真正落地的新可能1。这种能力将让世界构建不再是专业工作室的专利,而是个人创作者和教育者都能触及的普惠能力。
  • 机器人技术:打破模拟与现实的壁垒:机器人领域是空间智能最直接也最具变革潜力的应用场景。

    • 规模化机器人学习:世界模型可以生成高保真度和计算效率的模拟环境,弥合模拟与现实之间的鸿沟,为机器人提供可扩展的、可行的大规模训练数据,从而在无数状态、互动和环境中进行学习,解决当前机器人学习数据稀缺的痛点。
    • 伴侣与协作者:具备空间智能的机器人将能更好地理解、推理、规划和行动,成为实验室、工厂、居家环境中的人类协作者,例如协助科学家操作仪器,或帮助独居老人做饭,在扩展人类生产力的同时,保持与人类目标的共情对齐。
    • 扩展具身形式:无论是人形机器人、输送药物的纳米机器人,还是深海或外太空探索的特种机器人,世界模型都能为其提供必要的训练环境和基准测试任务,加速多样化具身形态的研发。
  • 算力需求与投资逻辑:Jevons Paradox 的回响:尽管World Labs在RTFM模型上实现了仅需单块H100 GPU运行的效率,但整体而言,世界模型对算力的需求将是指数级增长的,甚至远超大语言模型。传统视频架构要实现4K+60FPS的交互式视频流,每秒需要生成超过十万个token,这在经济上是不可行的3

    • 然而,这并非意味着算力需求的下降,反而是AI领域著名的“杰文斯悖论”的体现:当技术提高算力利用效率时,对算力资源的总消耗量反而会增加3
    • 这预示着对高性能计算基础设施的投资将持续升温,AI芯片、云服务提供商、数据中心等产业链环节将迎来新一轮爆发。OpenAI与博通的合作、xAI从英伟达挖人,以及Meta、Google等巨头纷纷加注世界模型,都印证了这一趋势。未来,能够降低单次推理、训练所需算力的模型架构创新将受益,但整体算力天花板仍将不断抬升。

跨越语言的哲学思辨与社会影响

李飞飞的愿景不仅关乎技术与商业,更触及了人工智能对人类认知和文明进程的深层影响。

  • 人类认知的基石:空间智能的深层意义:哲学维度上,李飞飞引用维特根斯坦的“我语言的极限,意味着我世界的极限”,并进一步阐明,对AI而言,“世界远不止于文字”。空间智能正是超越语言的前沿,它触及了人类认知最根本的基石——我们日常生活中驾车、接钥匙、穿行人群的直观能力,以及埃拉托色尼计算地球周长、哈格里夫斯发明珍妮纺纱机、沃森和克里克发现DNA结构这些改变文明进程的时刻,都源于对物理空间的想象、推理和创造。今天的AI虽然擅长阅读、写作、数据识别,但在表征或与物理世界互动时,仍存在根本性局限。空间智能将使AI从“脱离现实根基”的文字大师,转变为真正理解世界、具备具身智能的智能体。

  • 赋能人类:伦理与未来的共生:李飞飞始终坚持AI必须增强人类能力,而非取而代之的核心伦理原则。空间智能正是这一愿景的体现,它将赋能人类的创作者、照护者、科学家和梦想家,去实现曾经的不可能。这意味着在AI发展中,需要持续关注人类的能动性与尊严,避免技术乌托邦或末日论的极端叙事。技术开发、部署和治理必须与人类需求相契合,保持共情式的对齐,放大人类的判断力、创造力和同理心,而非削弱。

  • 长远图景:科学、医疗与教育的突破性应用:除了近期的创意和机器人应用,空间智能的变革潜力将在更长远的时间尺度上对人类福祉产生深远影响。

    • 科学研究:空间智能系统可以模拟实验、并行测试假设,并探索人类无法触及的环境,改变气候科学、材料研究等领域的计算建模,加速新材料发现、新药研发。
    • 医疗健康:在实验室,AI能通过建模分子相互作用加速药物发现;在诊断环节,协助放射科医生识别医学影像模式;在病床边,实现环境监测系统,为患者和照护者提供支持,同时不取代人类情感联结。
    • 教育领域:空间智能将实现沉浸式学习,让抽象或复杂的概念变得触手可及,例如学生可以在多维空间中探索细胞运作机制或亲历历史事件。专业人士也能在逼真模拟中安全练习复杂技能,对于学龄儿童和成年人的快速学习和技能再培训尤为重要。

空间智能:AI通向通用智能的“北极星”

李飞飞的万字长文和World Labs的实践,清晰地描绘了AI下一个十年的蓝图:从语言智能迈向空间智能,是通向真正通用人工智能(AGI)的必由之路。它要求我们不仅在算法和模型上实现突破,更要在数据、算力、伦理和产业协作上进行全面升级。

五亿年前,大自然在远古动物身上释放了第一缕空间智能的火花,如今,人类正站在可能赋予机器同样能力的风口浪尖。这项探索不仅是技术和商业的竞赛,更是一次深刻的哲学之旅,指引着AI走向一个更深刻、更丰富、更强大的生活愿景。空间智能,无疑是AI通向理解“世界”、提升人类福祉的“北极星”。我们,正被邀请与她同行,共同探索这一前沿。

引用


  1. 从语言到世界:空间智能是AI的下一个前沿·新智元·李飞飞(2025/11/11)·检索日期2025/11/11 ↩︎ ↩︎

  2. 李飞飞发布世界模型新成果:一个提示,生成无限3D世界·量子位·不圆(2025/09/17)·检索日期2025/11/11 ↩︎ ↩︎

  3. 仅需一块GPU!“AI教母”公布最新世界模型算力需求“天花板”会更高吗?·财联社·张真(2025/10/17)·检索日期2025/11/11 ↩︎ ↩︎