世界模型:迈向AGI的“计算雪球”,抑或终结AI幻觉的钥匙?

温故智新AIGC实验室

TL;DR:

“世界模型”作为AI内部的环境表征,正成为实现通用人工智能(AGI)和解决当前大语言模型(LLM)鲁棒性、幻觉问题的关键。AI巨头正投入研发,但关于其构建方式——是依赖海量多模态数据涌现,还是需要全新的神经网络架构——仍存在激烈争论,这定义着AI理解现实和走向未来的不同路径。

人工智能研究的核心目标,尤其是在通往“通用人工智能”(AGI)的漫长征途中,正聚焦于一个既古老又充满未来感的概念——“世界模型”1。这并非一个全新的构想,而是AI内部对外部现实的一种计算型表征,犹如一个微缩的“雪球玻璃球”1,允许AI在真实行动前进行预测和规划。从Meta的杨立昆(Yann LeCun)、Google DeepMind的德米斯·哈萨比斯(Demis Hassabis),到加拿大魁北克人工智能研究院Mila的约书亚·本吉奥(Yoshua Bengio),这些深度学习的先驱们普遍认为,构建真正聪明、科学且安全的AI系统,世界模型是不可或缺的基石。

技术原理与深度演进:从克雷克设想到深度学习的复兴

“世界模型”的萌芽可追溯至1943年,心理学家肯尼斯·克雷克(Kenneth Craik)提出的“小尺度模型(small-scale model)”设想,即有机体通过脑中的内部模型来预演行为,从而做出更优反应1。这一思想预示了认知科学的“认知革命”,并将认知与计算紧密联系。早期AI系统如20世纪60年代末的SHRDLU也尝试过基于手工规则构建简易世界模型,但这类方法因难以规模化、无法应对真实世界的复杂性而受挫。上世纪80年代末,机器人学先驱罗德尼·布鲁克斯甚至提出“世界本身就是其最佳模型”1,一度让显式世界模型的构建陷入低谷。

然而,机器学习尤其是深度学习的崛起,为世界模型带来了复兴的契机。人工神经网络通过反复试验,能够从数据中自发构建内部的环境近似模型。近期,大语言模型(LLM)如ChatGPT展现出的“意外”能力,让人们再次审视其内部可能存在的“外部现实的小尺度模型”1。然而,深入分析发现,当前的生成式AI更像是学习了**“启发式集合”**:成百上千条互不关联的经验法则,而非一个自洽、连贯的整体。这如同“盲人摸象”,AI仅摸到了部分特征,无法整合出完整的“大象”形象1。例如,一个LLM可以仅凭语言数据生成曼哈顿的导航路线,却并未真正掌握街道网络的连贯世界模型1

商业敏锐与产业生态洞察:巨头竞逐与AGI的“黄金城”

当前LLM的“启发式集合”虽然在许多场景下表现出色,但其鲁棒性(robustness)不足是致命缺陷。当曼哈顿1%的街道被随机封闭时,LLM的导航能力会显著崩溃1。这正是世界模型的商业价值和产业驱动力所在:一个鲁棒且可验证的世界模型,有望成为消除AI幻觉、支持可靠推理并提升AI系统可解释性的科学工具12。对于自动驾驶、医疗诊断等对可靠性要求极高的应用而言,一个能够理解并模拟物理世界的AI系统,其商业潜力和市场价值无疑是巨大的。

各大AI实验室正不遗余力地投入世界模型的研发,这不仅是通往AGI的必经之路,更是为了构建更安全、更可信赖的商业化AI产品。杨立昆等科学家明确指出,仅仅依靠语言和文字训练的AI系统,难以逼近人类对世界的理解力,其缺陷主要体现在推理和规划能力345。他提出的联合嵌入预测架构(JEPA)和基于能量的模型(EBM)等方案,正是旨在让AI像人类婴儿一样通过与世界互动来学习常识,建立一个内在的世界模型,从而摆脱对强化学习的过度依赖,提升可靠性34

哲学思辨与社会影响:理解、安全与信任的边界

世界模型的探讨,触及了AI能否“理解”现实的深层哲学问题。当前的LLM通过符号操作和统计规律生成内容,但这种“理解”是浅层的、基于关联的,而非深层的、基于因果和常识的。人类通过亲身体验建立物理常识,而这是大多数AI系统所缺乏的3。一个真正的世界模型,意味着AI能将符号与感知、经验、世界知识结合,形成对现实的、可解释的认识。

从社会影响层面看,缺乏鲁棒世界模型的AI系统,其“幻觉”和不可靠性将严重制约其在关键领域的应用和公众信任度。想象一个在关键时刻因缺乏对物理世界的连贯理解而崩溃的自动驾驶系统,其社会代价是巨大的。因此,世界模型的突破,不仅仅是技术上的进步,更是构建值得信任的AI社会基础设施的关键一步。它关乎AI的安全性(AI Safety),也关乎人类与AI共存的未来。然而,正如崔浩等专家所言,即使AI拥有复杂的世界模型,它可能仍无法像人类一样真正理解世界,因为它缺乏本能、直觉、情感与痛感这些不可或缺的要素3

未来发展路径与技术路线之争

世界模型的“怎么做”依然是个未解之谜。目前主要存在两种技术路线:

  1. 多模态数据驱动:Google DeepMind和OpenAI倾向于认为,只要提供足够多的“多模态”训练数据,包括视频、三维模拟以及文本之外的其他输入,世界模型会在神经网络中自然“凝聚”出来1。这代表了“大力出奇迹”的规模化路线。
  2. 全新架构构建:以杨立昆为代表的研究者则认为,构建世界模型可能需要完全不同于现有生成式AI的全新架构13。这预示着一场深层的算法范式变革。

未来3-5年,我们可能会看到这两种路线的融合与协同。纯粹依赖数据规模的路径可能遭遇瓶颈,而全新的架构创新也需要海量数据来验证和优化。混合模型,即在新的架构框架下利用多模态数据进行高效学习,或许是通往更鲁棒、更具理解力AI的现实路径。这场“计算雪球玻璃球”的构建竞赛,将决定AI能否从“盲人摸象”的困境中走出,真正理解现实,并迈向那 elusive 的通用人工智能“黄金城”。

引用


  1. 世界模型:机器能否理解现实?·神经现实·John Pavlus,译者:琴心(2025/09/02)·检索日期2024/06/18 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 机器能否理解现实?|世界模型|人工智能 - 网易·网易·(未知)(未知)·检索日期2024/06/18 ↩︎

  3. 杨立昆:“AGI即将到来”完全是无稽之谈,真正的智能要建立在世界 ...·MIT Technology Review中国·(未知)(未知)·检索日期2024/06/18 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  4. 杨立昆:放弃强化学习,拥抱世界模型,AI 的未来在于推理和规划·Xinfinite·(未知)(未知)·检索日期2024/06/18 ↩︎ ↩︎

  5. 哪个大模型能造出通用人工智能AGI?三大模型对比推演·知乎·(未知)(未知)·检索日期2024/06/18 ↩︎