TL;DR:
最新研究揭示,当前主流多模态大模型普遍缺乏人类婴儿级的核心认知常识,如物体永恒性、直觉物理和透视理解,且规模扩张并未弥补这一根本缺陷,反而加剧了对“捷径学习”的依赖。这不仅是对现有“大力出奇迹”范式的严峻挑战,更迫使AI社区重新审视智能的本质,呼唤将“世界模型”和具身智能作为未来发展的新基石,以构建真正鲁棒且可信赖的AI系统。
人工智能的宏伟叙事正遭遇一场来自“婴儿”的灵魂拷问。当业界还在为多模态大模型(MLLM)在诗歌创作、代码生成和复杂推理任务上的卓越表现而惊叹时,来自加州大学圣地亚哥分分校、约翰霍普金斯大学等顶尖机构的联合研究团队发布了一项里程碑式的发现——CoreCognition基准测试,毫不留情地揭示了包括GPT、Claude、Qwen在内230个主流模型在最基础的“婴儿级常识”上集体“翻车”。连AI教父Yann LeCun都为此研究点赞转发,这无疑向狂飙突进的AI浪潮投下了一块沉重的石子:我们所追求的“智能”是否正建立在沙基之上?
技术幻象与认知鸿沟:大模型“婴儿级常识”的缺失
这项被ICML 2025接收的研究,耗时一年构建了业界首个核心认知基准CoreCognition,它包含1,503道精心设计的题目,旨在测试模型在感知运动到形式运算阶段的12项核心认知能力,例如物体永恒性(Object Permanence)、透视理解(Perspective Taking)和直觉物理(Intuitive Physics)。结果令人震惊:在这些“幼儿园级别”的测试中,大模型普遍落后人类表现10%到30%不等。例如,在物体永恒性测试中,最强的InternVL3-78B也仅达到74.1%,而人类为88.1%1。直觉物理能力更是重灾区,GPT-o1仅为75.45%,远低于人类的91.52%1。
更具批判性的是,研究团队引入的**“概念黑客”(Concept Hacking)**方法——通过设计核心概念反转的“孪生题”,成功揭露了模型是“真懂”还是“假懂”。结果显示,许多模型在原版题上表现尚可,但在孪生题上却直接“翻车”,这暴露了它们对“刻板印象”或“捷径学习”的严重依赖,而非真正掌握了核心概念。简而言之,大模型并非通过理解世界运行的基本规律来解决问题,而是更倾向于记忆和套用模式,成为一个“滑头”。
"大力出奇迹"的失效:规模陷阱与智能的本质之辩
过去数年,深度学习领域信奉“大力出奇迹”的规模化原则——更大模型、更多数据、更强算力往往能带来性能的显著提升。然而,CoreCognition基准的发现对此提出了严峻挑战:
- 参数规模的无效性:实验数据显示,将219个模型从1B扩展到110B参数,其在低阶核心认知能力上的表现曲线几乎呈水平线,甚至在透视理解等某些方面随规模增大而下降1。这直接打破了“规模越大越聪明”的线性认知增长假说。
- 能力的“分裂”:研究发现,大模型低阶能力如物体永恒性与对应高阶能力如透视理解之间几乎零相关。人类认知是层层递进的,下层能力为上层提供地基;而大模型则呈现出高楼悬空、能力断裂的现状。
这一系列发现迫使我们进行深刻的哲学思辨:真正的智能究竟是什么?如果一个系统无法理解物体遮挡后依然存在,或者无法判断物体碰撞后的基本物理走向,它又能如何称得上“智能”?当前的“智能”是否只是基于海量数据统计关联的“高级算计”,而非对世界内在逻辑的真正理解?这正是Wired所倡导的,将技术置于更广阔的人文社科背景中思考的体现。
产业生态的反思:从“性能军备竞赛”到“基础能力建设”
CoreCognition的发布及其揭示的问题,无疑将对当前AI产业生态带来深远影响。TechCrunch的商业敏锐度告诉我们,风险与机遇总是并存:
- 商业模型风险:GPT、Claude等明星商业模型在核心常识上的缺陷,意味着它们在实际应用场景中可能存在潜在的“脆性”。例如,自动驾驶系统若缺乏对遮挡物体的直觉物理判断,将带来灾难性后果;机器人若无法理解简单的因果关系,其在复杂环境下的操作将寸步难行。这使得依赖这些大模型提供服务的企业面临潜在的商业风险。
- 投资逻辑的转变:过往投资界对大模型的追逐,很大程度上基于其在“表面智能”上的惊人表现和参数规模的快速增长。现在,如果“大力出奇迹”的范式被证伪,投资热点可能会从盲目追求模型规模转向对更基础、更鲁棒、更具可解释性的AI研究方向,例如世界模型(World Models)、具身智能(Embodied AI)和发展型AI(Developmental AI)。
- 开源社区的价值:CoreCognition基准和评测框架的开源,为全球研究者提供了一个统一且易于上手的工具,来系统性地评估和改进模型的认知能力。这可能催生一个新的研究热潮,鼓励更多团队共同攻克这一基础性难题,加速AI基础能力的提升。这体现了开源生态在推动技术进步中的关键作用。
重构AI发展路径:走向“世界模型”与具身智能的未来
这份研究不仅是诊断书,更是未来AI发展的一份路线图。它强烈暗示,我们不能再沉迷于“裱糊匠”式的修补(如推理增强、高级提示工程),而是必须回到智能的“地基”建设上来。
正如MIT Technology Review所强调的前瞻性洞察,未来的AI发展将更加关注:
- 世界模型的构建:Yann LeCun一直倡导,AI需要建立对物理世界的内在理解,即一个“世界模型”。CoreCognition的发现再次验证了这一点:缺乏对物体、空间、时间等基本概念的深层理解,AI的高层推理将是无根之木。未来研究将更多地探索如何让AI通过与环境的互动,而非仅仅依靠海量文本和图像数据,来内化这些核心常识。
- 具身智能的崛起:身体是获取和验证常识的重要载体。通过物理世界的交互,如机器人对物体的抓取、移动、感受重力等,AI才能真正习得直觉物理和空间推理。这将加速机器人学与AI的融合,推动具身智能成为实现通用人工智能的关键路径。
- 认知科学与AI的深度融合:这项研究本身就是认知科学家与AI研究者跨学科合作的产物。未来,AI的发展将更深地借鉴人类认知发展规律,从婴儿期的感知、学习机制中汲取灵感,设计出能够像人类一样从简单到复杂、从具体到抽象逐步构建世界认知的AI系统。
- 强化鲁棒性和安全性:一个拥有强大核心知识的AI系统,将更不容易被对抗性攻击所愚弄,也更能适应复杂多变的环境。这将是实现AI安全可控,并将其应用于关键基础设施和高风险领域的先决条件。
伦理与安全警示:智能的“地基”缺失带来的潜在风险
CoreCognition的发现不仅关乎技术性能,更触及AI伦理和安全性。当智能系统被广泛部署于医疗诊断、金融决策、自动驾驶等高 Stakes 领域时,缺乏基本常识可能导致意想不到的失败。这种“智能地基”的缺失,使得AI在高层能力上表现出的看似“聪明”,实则可能隐藏着巨大的“盲区”和“脆弱性”。
“规模、推理、提示,都只是裱糊匠——地基没打好,楼越高越危险。”1
这种“智能”的本质性缺陷,对社会信任度构成潜在威胁。如果AI在基础判断上频繁“犯错”,公众对其复杂能力的信任将大打折扣。因此,我们必须保持批判性思维,在追求AI性能飞跃的同时,更要确保其基础的健全性,推动AI从“奇迹”走向“可靠”。
这场关于“婴儿常识”的揭露,是人工智能发展史上的一个重要转折点。它不仅是对现有范式的有力质疑,更是对未来路径的深刻启示。真正的智能,不在于花哨的表面能力,而在于对世界最朴素、最基础的理解。只有当我们把目光从参数规模的狂热竞赛中移开,重新审视并致力于构建这些被忽视的“核心知识地基”,AI才能真正踏上通往通用智能的稳健之路,并深刻而负责任地影响人类文明的进程。
引用
-
新智元:MLLM集体翻车,缺乏婴儿级常识,业界首个核心认知基准发布,LeCun转赞 · 新智元 · 新智元(2025/8/5)· 检索日期2025/8/5 ↩︎ ↩︎ ↩︎ ↩︎