TL;DR:
智源研究院发布了王炸级的悟界·Emu3.5,它不只是能生成以假乱真的视频,更重要的是,它能像个“老司机”一样理解物理世界运行的“潜规则”,让AI从“像素级模仿”走向“深度理解”,甚至能带你第一视角沉浸式体验虚拟世界!最重要的是,它还开源了,这意味着AI世界的“乐高积木”又多了一块硬核基石!
AI迭代的速度,用“飞沙走石,电闪雷鸣”来形容都嫌慢!尤其是文生视频这条赛道,几乎是月月都有新“网红”来打卡。从最初的“糊弄学”画风,到Sora那种以假乱真的电影级大片,肉眼可见,AI视频一个比一个真,一个比一个长。
但是,朋友们,先别急着掏出你们的膝盖骨!真正的“赛点”早就不是“像不像”了,而是“懂不懂”!
AI知道桌上的苹果被拿走后,那里应该空空如也吗?它明白你转身之后,背后的场景依然存在,而不是瞬间消失吗?如果答案是“否定”的,那再逼真的视频,也只不过是“高级版GIF”,或者说,是个“精致的假把式”。这就像一个演技派演员,长得再帅,如果没搞懂剧本的核心逻辑,那也只能沦为“花瓶”。
现在,北京智源人工智能研究院(BAAI)带着他们的最新力作——悟界·Emu3.5,来挑战这个“终极拷问”了。它不仅要让AI“长得好看”,更要让它“活得明白”!
“世界模型”是个啥?AI终于要“懂”物理世界了?
说到Emu3.5,就不得不提它的“底裤”——世界模型基座。这听起来有点玄乎,但其实没那么复杂。
想象一下,我们人类为什么能活蹦乱跳,而不是整天撞墙?因为我们大脑里有一套“世界模型”!我们知道苹果会从树上掉下来,球滚到桌边会掉下去,水往低处流……我们对物理世界的运行规律门儿清。
而传统AI,就像一个超级学霸,记忆力超群,能背下海量的知识点(数据),也能模仿得惟妙惟肖。但它可能压根儿不知道这些知识点背后的“为什么”和“怎么样”。它看到苹果掉下来,只会记住“苹果掉下来了”,但不会理解“地心引力”这个物理规律。
“世界模型”要做的,就是给AI装上一个物理引擎和一个逻辑大脑。让它能够预测并理解物理世界的动态变化,而不是单纯地“复制粘贴”图像和文本1。Emu3.5,就是奔着这个目标去的。智源研究院放出豪言,这等于是在AI领域开辟了一条全新的赛道,要为AI与物理环境进行泛化交互(比如具身操控)提供关键的认知基础2。
用大白话讲,它让AI不仅能“看懂”世界,还能“预测”世界,甚至“改造”世界!这不就是AI的“超能力”觉醒吗?
Emu3.5:你的AI“神笔马良”,还能带你“开挂”漫游虚拟世界!
那么,这个“懂王”AI到底有多“离谱”?从官方放出的Demo来看,Emu3.5简直是“开了挂”:
- 一键消除手写痕迹:你画的画,写上去的字,一句话,瞬间“消失术”,只留下干干净净的画面。这效率,秒杀P图大师傅!
- 第一视角漫游动态3D世界:这不是CG动画,这是Emu3.5自己构建的!它能让你以“第一人称”视角,像玩游戏一样在虚拟客厅、火星赛道上“丝滑”移动。你转头,场景跟着动,全程空间一致性爆表。这意味着,AI真的“理解”了你身处的空间和你的视角变化,而不是简单地拼接几张图。
“在火星上开卡丁车也很丝滑:这简直是AI版的‘速度与激情’,只不过这次,主角是你的想象力!”
- 高精度可控图像编辑:你想给狐狸草图来个“3D打印+上色”一条龙服务?Emu3.5能一步步生成从草图到手办的完整视觉流程,而且狐狸的核心特征和神态全程“在线”,一点儿不跑偏。这不就是AI版的“灵魂画手”吗?
- 生成图文并茂的视觉故事/教程:想学做菜?想学画画?Emu3.5能像个耐心的老师傅,一步步生成图文教程。这功能简直是懒人福音,妈妈再也不用担心我学不会做饭了!
- “整理桌面”这种复杂的长时序任务也能搞定:清除桌面、解开线缆、捆好线缆、隐藏线缆、摆放整齐……这一系列指令,Emu3.5都能理解并模拟出完整的视觉流程。它真的像一个“智能体”一样,在虚拟世界里“具身操作”了!
更牛的是,在多项权威基准测试上,悟界·Emu3.5的表现极其亮眼,性能媲美甚至超越了Gemini-2.5-Flash-Image,也就是我们常说的那个“Nano Banana”1。看来,这次智源是真拿出“硬核实力”来了一场“降维打击”。
从“像素游戏”到“真实宇宙”:智源的“黑科技”到底藏了什么?
Emu3.5之所以能这么“顶”,背后自然少不了智源的“黑科技”。
首先,它的“大脑”是一个标准的Decoder-only Transformer,参数量只有34B,但能量巨大。它把所有任务都统一成一个核心目标:下一State预测(Next-State Prediction)。简单来说,就是预测“下一步会发生什么”。无论是图片、文字还是视频,统统被转化成“Token序列”,让AI能像读懂人类语言一样,去理解世界的动态。
那么,它是怎么练就这身“超能力”的呢?
- 海量视频数据预训练:Emu3.5在超过10万亿Token的多模态数据上进行了训练。其中,主力就是来自互联网的连续视频帧和转录文本。这就好比让AI看了海量的“世界运行录像”,它自然而然就“沉浸式学习”了时空连续性和因果关系。怪不得能把物理规律“拿捏得死死的”。
- 强大的分词器:一个基于IBQ框架的视觉分词器,拥有13万的“视觉词汇表”,能实现高达2K分辨率的高保真图像重建。这意味着它不仅“看得懂”,而且“看得清清楚楚,明明白白”。
- 多阶段“魔鬼训练”:预训练之后,模型还经过了大规模的有监督微调(SFT)和大规模多模态强化学习(RL)。智源团队给它设置了一个复杂的“奖励系统”,不仅要看美学、图文对齐这些通用指标,还要看故事连贯性、文本渲染准确率这些任务特定指标。这简直是AI界的“奥斯卡金像奖”评选,不优秀都难!
- 推理加速“黑科技”:离散扩散适配(DiDA):自回归模型生成图像通常像“挤牙膏”一样慢。智源团队祭出了DiDA技术,把逐个Token的生成方式变成了并行的双向预测。结果就是:在不牺牲性能的前提下,每张图像的推理速度提升了近20倍!这就像给AI装上了“涡轮增压”,效率瞬间拉满!
王炸!开源基座Emu3.5,AI的“乐高积木”已就位!
最最最让人激动的是什么?这么强的模型,智源竟然选择——开源!
这意味着全球的开发者、研究者们,不用再从零开始,就能直接上手一个“懂物理、有逻辑”的世界模型!这简直是给AI社区送上了一个“王炸”!
“悟界·Emu3.5是智源悟界系列大模型的最新成果,这一系列模型旨在构建人工智能与物理世界交互基座,也是北京在人工智能领域布局的又一‘硬核注脚’。”3
开源的世界模型基座,想象空间直接拉满。从生成更逼真、更有逻辑的视频,到构建更聪明、能像人一样与物理世界交互的智能体(Agent),再到赋能千行百业的实际应用,比如:
- 游戏开发:AI直接生成拥有物理规律的虚拟世界和NPC。
- 机器人:让机器人更精准地理解环境,进行更复杂的具身操作。
- 模拟训练:为自动驾驶、具身智能提供无限多样、高质量的虚拟训练环境,解决真实数据稀缺的问题4。
Emu3.5就像AI世界的“乐高积木”,而且还是那种自带“物理引擎”的积木。未来,我们可能看到各种基于Emu3.5搭建出来的AI应用,让AI真正从数字世界迈向物理世界,甚至在其中“兴风作浪”!
现在,如果你也想体验这个“开挂”的模型,智源也提供了科研内测版申请链接。这波操作,智源研究院简直是把“格局”打在了公屏上!
引用
-
世界模型有了开源基座Emu3.5,拿下多模态SOTA,性能超越Nano Banana·量子位·允中(2025/10/30)·检索日期2025/10/30 ↩︎ ↩︎
-
智源研究院发布悟界Emu3.5,开启多模态世界大模型新纪元 - 品玩·品玩(2025/06/07)·检索日期2025/10/30 ↩︎
-
“悟界”发布!“AI第一城”北京打开AI与物理世界交互新维度·北京市科学技术委员会、中关村科技园区管理委员会(2025/06/09)·检索日期2025/10/30 ↩︎
-
刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力 - 网易·网易新闻(2025/06/07)·检索日期2025/10/30 ↩︎