智源Emu3.5:从“预测下一个Token”到“洞察世界状态”,AI迈向具身智能的第三范式

温故智新AIGC实验室

TL;DR:

智源悟界·Emu3.5通过引入颠覆性的“下一状态预测”范式,结合大规模多模态强化学习和高效推理技术,不仅定义了多模态AI的“第三个Scaling范式”,更为具身智能构建了理解、规划和模拟真实世界的核心认知基石,预示着AI在物理世界中实现泛化交互的崭新未来。

2024年10月,智源研究院发布的悟界·Emu3.5,如同投入人工智能湖面的一颗重磅石子,激起了关于未来智能形态的深层涟漪。如果说之前的AI浪潮聚焦于“预测下一个Token”,那么Emu3.5则以其“下一状态预测”(Next-State Prediction, NSP)范式,将AI的认知边界从语言和像素的表层推向了对真实世界物理、时空和因果关系的深层理解,这不仅是技术上的跃迁,更是一场关于AI如何“看”和“理解”世界的哲学革命,并被智源研究院院长王仲远称为**“可能开启了第三个Scaling范式”**1

技术原理与创新点解析:迈向“下一状态预测”的深层逻辑

Emu3.5的核心创新在于其从“Next-Token Prediction”到“Next-State Prediction (NSP)”的范式转变。传统的生成模型大多基于序列中的下一个Token进行预测,这在文本或图片生成中取得了巨大成功,但难以捕捉复杂世界中的动态变化和因果关系。Emu3.5则以自回归架构,将多模态序列视为一系列连续的状态,通过预测“下一个时空状态”来模拟人类的自然学习方式。这种能力意味着模型不再仅仅是被动地生成内容,而是主动地理解世界的运行规律,并对未来可能的演变进行预判2

这一范式转变的支撑是智源所提出的**“第三个Scaling范式”**。回顾AI历史,第一个Scaling范式是基于大规模语言预训练的模型参数、数据量与算力提升;第二个则转向了后训练与推理阶段的优化。而Emu3.5在多模态领域首次证明了Scaling的可能性,其核心依据有三:

  1. 统一的自回归架构:Emu3.5将图像、文本、视频等所有模态统一编码为可预测的状态流,能够大规模复用现有计算基础设施,为多模态数据的大一统奠定基础。
  2. 大规模原生多模态强化学习:将成熟的强化学习技术应用于更长的多模态序列,智源团队构建了包含通用性、任务特异性和统一性在内的综合奖励系统,避免单一奖励过拟合,实现了多任务的协同提升,为多模态大模型的Scaling up提供了关键支撑。
  3. 显著的性能跃升:从Emu3到Emu3.5,模型性能实现了产品级水准的显著提升,并在多个基准测试中展现出与顶尖闭源系统匹敌甚至超越的能力,例如在图像编辑和文本渲染任务上与Google Gemini-2.5-Flash-Image(Nano Banana)不相上下甚至更优3

Emu3.5的技术突破并非一蹴而就,其背后是三大核心技术的精妙融合:

  • 海量长视频驱动的两阶段预训练:模型在约13万亿tokens上进行端到端预训练,其中大部分数据是累计时长达790年的长视频,覆盖教育、科技、娱乐等多个领域,旨在让模型从视觉起点建立对世界因果关系、时空演化、物理常识的理解。这一规模化的数据策略,验证了原生多模态Scaling范式的有效性。
  • 统一多任务的大规模原生多模态强化学习:Emu3.5能够模仿多模态交互,将复杂文生图、强推理能力的图像编辑等任务统一在相同的交互形式下。例如,精准呈现“一步步拿出手机”、“倒水”等动作,实现交互式探索,这些都是构建下一代原生多模态模型的关键方向。
  • DiDA(Discrete Diffusion Adaptive)推理加速技术:自回归模型在推理速度上曾是劣势。智源通过自研的DiDA技术,无损地将推理速度提升了20倍,使得Emu3.5在保持生成质量的同时,推理性能可媲美扩散模型,极大地降低了原生多模态的运行成本,为大规模商业应用扫清了障碍3

产业生态影响与商业化前景:具身智能的加速器

Emu3.5对产业生态的影响是深远的,尤其在具身智能领域,它补全了一块关键拼图。王仲远强调,世界模型的核心是对下一个时空状态的预测,这对于机器人执行精细操作(如抓取咖啡时精准把控力度和方向)至关重要。Emu3.5涌现出的因果推理和规划能力,正是AI与物理环境进行泛化交互(如具身操控)的关键认知基础。它能从高层级人类意图(如“如何制作一艘宇宙飞船”)自主生成详细、连贯的多步骤行动路径,并动态模拟物理世界、预测时空演化和长时程因果关系。这意味着,未来的机器人将不再仅仅是指令的执行者,而可能成为具备独立“世界观”和“行动规划”能力的智能体。

在商业应用层面,Emu3.5展现出重塑多个行业的潜力:

  • 内容创作与编辑:其强大的文图协同生成和智能图像编辑能力,将加速教育(智能课件)、娱乐(AI导演)和广告营销等领域的内容生产效率和个性化程度。用户可通过自然语言完成以往需专业软件和技能才能实现的复杂创作。
  • 智能交互与助手:Emu3.5能够理解和生成交错的视觉-语言输出,这意味着未来的虚拟助手将能提供更具上下文感知和物理世界理解能力的交互体验,例如,通过视频指导用户完成复杂操作,或对场景进行实时分析并提出建议。
  • 工业自动化与机器人:对于需要“感知-决策-执行”闭环的场景,如智能制造、物流分拣、甚至自动驾驶辅助,Emu3.5提供的世界建模能力,将使AI系统能更准确地预判操作结果,优化决策,提高效率和安全性。

智源研究院计划后续开源Emu3.5,这一举措无疑将加速全球AI研究社区在该方向上的探索,促进多模态生态的共同繁荣。作为介于高校与企业之间的独特组织,智源能够进行这种融合算法、工程架构、数据训练范式与模型思想的综合性创新,其开源策略将有望在全球范围内激发更多基于Emu3.5的创新应用和商业模式。

哲学思辨与未来展望:智能体的世界观构建

Emu3.5不仅仅是一项技术突破,更引发了对人工智能本质的深层哲学思辨。王仲远指出,人类的学习并非从文本开始,而是以视觉为起点建立对世界的认知。Emu3.5通过海量视频数据学习世界运行规律,恰恰是在模拟这种人类构建“世界模型”的自然路径。AI系统能否真正建立起一个如同人类大脑般能理解基本物理常识、时间空间知识、因果推断的“世界模型”,是迈向通用人工智能(AGI)的关键。

Emu3.5的“下一状态预测”能力,标志着AI开始从“知其然”迈向“知其所以然”,从“感知理解”进化到“智能操作”。这不仅仅是生成能力的增强,更是认知能力的质变。一个能够预测并理解物理动态、时空演化和长时程因果关系的AI,将拥有更强的自主规划和决策能力,能够更好地适应和改变物理世界。这无疑将加速AI Agent和自主系统向更高智能层次的演进。

然而,随之而来的也将是伦理和社会层面的新挑战。当AI具备了更强的世界建模和预测能力,能够自主规划并与物理世界深度交互时,如何确保其行为符合人类价值观?如何建立有效的安全与控制机制?Emu3.5的出现,迫使我们不仅要思考AI能做什么,更要深入探讨AI应该做什么,以及人类如何与这样一个拥有“世界观”的智能体共存。

智源悟界·Emu3.5的发布,无疑开启了一个新的大模型赛道。它将单一技术置于更大的生态系统中考量,融合了前沿的算法创新、务实的工程优化和前瞻性的哲学思考。通过构建一个能够理解和预测世界状态的多模态大模型,Emu3.5为AI带来了对时空、长时序和一致性的深层理解,以及因果推断的能力。这不仅是AI技术发展史上的一个里程碑,更是一个对人类文明进程具有深远影响的起点,它将加速AI从数字世界走向物理世界,重塑未来的产业形态和人类与技术的关系。

引用