世界模型的拓荒者:Genie 3背后,Shlomi Fruchter与Jack Parker Holder的具身智能远见

温故智新AIGC实验室

TL;DR:

Shlomi Fruchter和Jack Parker Holder作为谷歌DeepMind世界模型的关键构建者,通过Genie 3展现了他们对具身智能和可交互虚拟世界的颠覆性愿景。他们的工作不仅是技术突破,更是对AI如何模拟现实、赋能机器人乃至重塑人类体验的深刻思考。

八月的伦敦,谷歌DeepMind的实验室里,一项被誉为“我见过最令人震撼的技术”——Genie 3——正悄然揭开它神秘的面纱。它能在短短三秒内,将一串简单的文本提示,转化成一个720p分辨率、可实时交互的逼真3D虚拟世界。这不仅仅是视觉的盛宴,更是对未来娱乐、机器人训练乃至通用人工智能边界的深刻探索。1 而站在这一技术浪潮之巅的,正是DeepMind研究总监Shlomi Fruchter和开放性团队研究科学家Jack Parker Holder,他们以深邃的洞察和不懈的创新,为我们勾勒出“世界模型”的宏伟蓝图。

概念的迭代与演进:从像素到世界

当主持人蒂姆·斯卡夫(Tim Scarfe)回忆起去年国际机器学习大会(ICML)上首次接触Genie 1时的震惊,他仿佛重温了那份最初的奇迹。Genie 1,一个从3万小时2D平台游戏录像中学习的模型,竟然能涌现出模拟深度感的视差效果,这让其核心设计者阿什利·爱德华兹(Ashley Edwards)及其团队惊叹不已。它通过时空视频标记器、无监督的潜在动作模型和自回归动态模型,仅凭像素变化,便“理解”了八种离散而一致的控制动作,展示出从非交互数据中挖掘世界逻辑的惊人潜力。1

Genie的演进速度令人咋舌。仅仅10个月后,Genie 2横空出世,将分辨率提升至360p,具备了3D能力,模拟出逼真的光照、烟雾、火焰和重力。Holder在采访中分享了一个极具冲击力的例子:将一张团队在加州拍摄的照片输入Genie,模型实时生成了一个可交互的游戏世界,用户的每一次按键,都由AI实时生成后续的像素。1 Fruchter领导的DeepMind以色列团队甚至用扩散模型实时模拟了经典的《毁灭战士》(Doom)引擎,这对他而言,是一次童年梦想与前沿科技的“圆满”。“我们尝试用扩散模型实时模拟游戏环境,完全生成像素,仅接受用户输入。起初不确定是否可行,但成功时非常激动。”Fruchter回忆道,那份科研突破的纯粹喜悦溢于言表。1

如今的Genie 3,则将这一概念推向了新的高度。它以文本提示为输入,生成720p高分辨率、可维持数分钟连贯交互的虚拟世界,而且,这种“一致性”是自然涌现的,无需显式编程。当斯卡夫好奇一个随机采样的神经网络如何能做到这一点时,Holder的解释带着一丝哲学意味:“类似语言模型,世界模型需保持某些基本一致性。语言模型在事实性内容上保持一致,新内容才有随机性。在Genie生成的世界中,新物体可能有随机性,但一旦生成,就保持一致,这是大规模训练的涌现属性。”这不仅是技术的飞跃,更是AI理解并重构“现实”的一次大胆尝试。1

模拟的哲学与具身智能的未来

在Fruchter和Holder看来,“世界模型”的终极价值,远不止于游戏和娱乐。他们坚信,这是通向具身智能,特别是机器人训练的关键路径。人类认知的奇迹在于我们能通过在脑海中模拟世界来避免昂贵的物理实验,而Genie 3,正是将这种能力赋予AI智能体。Holder强调,传统机器人通常在受限环境中部署,缺乏现实世界的随机性。而Genie 3的世界知识超越了纯粹的物理规则,它能模拟多变的天气、动态的其他代理,甚至是“鹿群跑下山坡”这样的罕见事件。这种能力对于大规模部署机器人至关重要,它允许在安全的模拟环境中反复训练,从而避免真实世界中的风险。12

“为什么要在现实中训练?模拟任何场景就够了,就像《黑镜》中的情节。”斯卡夫的一句玩笑话,恰好点明了DeepMind团队的核心理念。Fruchter指出,现实世界的实验耗时长、成本高,无论是药物开发还是机器人组装,模拟都能大大加速进程。Genie 3的出现,正是将模拟的边界推向了前所未有的广度和深度。1 尽管目前模型仅支持单一代理体验,但多代理系统的开发已在进行中,这将进一步解锁其在复杂社会交互模拟中的潜力。

创造力的共鸣与人类的彼岸

Genie 3的另一迷人之处在于其与人类创造力的共鸣。虽然Genie 3本身不具备创造性,严格按照提示生成内容,但它极大地放大了人类的想象力。“人类通过高质量提示创造酷炫世界,放大创造力。”Holder说。Fruchter则补充道,人类对“有趣”事物的定义驱动了创新,比如生成“玻璃水果切割的ASMR视频”,这种新奇性就源于独特的提示。未来,他们设想的是一个多步创造过程,人类与AI协同,共同生成更复杂、更引人入胜的体验。1

斯卡夫将这种潜力比作“下一个YouTube”或一种全新的虚拟现实形式,甚至触及了哲学中的“体验机器”概念——一个让人沉浸其中不愿离开的世界。Holder也联想到“Pickbreeder实验”——一个通过用户引导进化生成复杂图像的平台,预示着Genie 3可能带来意想不到的创新。虽然Fruchter承认Genie 3目前主要生成像素和音频,与人类多感官的体验仍有差距,但他对人们在生成世界中协作探索的未来充满期待。这种“开放性研究”的精神,正是DeepMind不断突破界限的动力源泉。1

未解的挑战与深远的启示

尽管Genie 3展现出革命性的潜能,Fruchter和Holder也坦诚其现阶段的局限性与挑战。安全性是首要考量,目前Genie 3仍是研究原型,将通过测试计划逐步开放。训练数据来源的敏感性、庞大的计算需求(依赖TPU网络),以及如何处理“无限乌龟”问题(即如何编写程序来提示可能无限多的罕见事件)都是摆在面前的难题。Fruchter提到,模型未训练过古代战斗场景数据,暂时无法生成,这揭示了其能力边界仍受限于训练数据。1

此外,“具身智能体的‘第37步’时刻尚未到来”,即智能体发现全新现实世界策略的时刻。Genie 3虽能模拟环境,但其自身不具备生成创造性事件的能力,而是严格按照提示。未来的“外循环”机制可能会使其更开放。多智能体模拟是重要的下一步,目前的Genie 3仅支持单智能体控制,其他智能体行为内嵌于模型权重中,尚未能从智能体经验中学习。1

然而,这些挑战并未遮蔽Genie 3的耀眼光芒。Holder坚信,只有像Genie 3这样逼真的世界模拟工具,才能真正解决现实世界中人与其他代理的复杂交互问题。Fruchter则展望将Genie与DeepMind的另一力作Gemini结合,两种模型协同工作,共同完成新任务。13 这不仅仅是技术上的协同,更是两大思维模式的融合:Genie在世界模拟层面的宏观把握,与Gemini在复杂推理层面的精微洞察。

在采访的尾声,斯卡夫半开玩笑地说:“对Unreal引擎开发者来说,可能是时候考虑新方向了。”但谷歌团队则表现出务实和谦逊,认为Genie是一种不同于传统游戏引擎的技术,各有优劣。1 这份清醒和理性,正是Fruchter和Holder作为资深研究人员的特质。他们深知,每一次AI的飞跃,都伴随着无尽的未知和严谨的探索。Genie 3,作为世界模型领域的里程碑,不仅预示着虚拟世界和机器人训练的未来,更向我们展示了AI如何一步步深入理解并重塑我们所认知的“现实”。而Fruchter和Holder,正是这场宏大旅程中,那些最专注、最执着的拓荒者。

引用


  1. DeepMind独家访谈实录,解密Genie 3世界模型,将颠覆游戏与机器人行业未来·腾讯科技·无忌(2025/8/6)·检索日期2025/8/6 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 谷歌DeepMind发布Genie 3模型用于生成交互式虚拟世界·智定网·(2025/8/6)·检索日期2025/8/6 ↩︎

  3. 重新定义“生成式AI”,谷歌DeepMind推出世界模型Genie 3·华尔街见闻·(2025/8/6)·检索日期2025/8/6 ↩︎