DreamOmni2开源:视觉AI迈向“意图理解”深水区,重塑创作范式与产业版图

温故智新AIGC实验室

TL;DR:

港科大贾佳亚团队开源的DreamOmni2模型,以其卓越的多模态指令编辑与生成能力,特别是对抽象概念和多参考图像的精准处理,显著超越了谷歌Nano Banana和GPT-4o等竞品。这不仅标志着AI视觉创作从“指令揣摩”转向“意图理解”的关键突破,更预示着开源生态将加速重塑商业格局,赋能新一代创作者。

技术突破:超越具象,拥抱抽象灵感

在AI图像生成领域,迭代速度令人目不暇接。从年初GPT-4o引爆的“吉卜力”热潮,到Nano Banana生成的3D手办风靡全网,我们见证了AI在“文生图”和“指令编辑”方面取得的巨大进步。然而,这些统一生成与编辑模型在处理复杂、抽象的创作需求时,依然存在“语言苍白无力”和“灵感并非实体物体”的瓶颈。例如,要精确描述梵高的笔触或王家卫的光影,或将一张照片的“复古胶片感光影”迁移到另一张,单纯的文本指令往往捉襟见肘1

港科大贾佳亚团队发布的DreamOmni2正是在这一关键节点上,实现了从“揣摩指令”到“看懂灵感”的质变。其核心创新在于掌握了针对“抽象概念”的多模态编辑与生成能力。基于强大的FLUX Kontext模型,DreamOmni2被赋予了处理多个参考图像的全新能力,使其能以前所未有的精度,将具象的物体替换、姿态模仿,与抽象的风格、光照、情绪甚至笔触进行融合与迁移。

在实测中,DreamOmni2不仅能轻松完成产品带货、人物替换等传统任务,更在难度更高的抽象概念处理上展现出惊人实力。例如,将红蓝风格光照迁移到另一张图像,DreamOmni2能精准保留原图的格栅光照并融合新风格,而GPT-4o和Nano Banana则表现出不同程度的失真或仅能迁移色调1。在风格迁移、字体图案复制、面部微表情和发型编辑方面,DreamOmni2均表现出超越现有顶尖模型的精确度和一致性。其处理多达四张参考图并进行复杂风格组合的能力,更是将其多模态理解推向了新高度。

这些突破并非偶然,其背后是DreamOmni2在“抽象属性”和“具体物体”混合编辑与生成方面的卓越性能。在专门设计的DreamOmni2基准测试中,它在多模态指令编辑和生成两项任务上,均取得了与GPT-4o相当甚至超越Nano Banana的成绩,尤其在编辑指令执行率、生成准确性和对象一致性方面表现出色,有效解决了竞品模型可能引入意料之外改动或一致性不佳的问题1

开源力量:重塑视觉AI生态与商业格局

DreamOmni2的开源属性,是其超越一众商业巨头模型的关键一击。当谷歌、OpenAI等公司以闭源策略引领AI视觉生成浪潮时,贾佳亚团队的DreamOmni2以其“开源版Nano Banana,但更强”的姿态,为全球开发者和创作者带来了福音。这一举措不仅在技术层面打破了闭源模型的垄断,更在产业生态层面引发了深远影响。

首先,开源加速创新与普及。 “Photoshop is dead”已成为AI创作者圈中的热门话题,而DreamOmni2的出现无疑加速了这一趋势。它提供了一个语义理解更全面、创意延展性更强的智能引擎,让更多不具备深度修图技能的创作者也能实现专业级的图像编辑和生成。YouTube上出现的大量教程和“别再用Nano Banana了,DreamOmni2 ComfyUI才是最强的免费工作流!”的呼声,正是开源力量推动技术普及和社群创新的生动写照1

其次,重塑竞争格局与商业模式。 面对开源社区的“King Bomb”,商业模型将面临更大的竞争压力。它们必须不断创新,在性能、易用性或商业化服务上提供更独特的价值。对于初创企业和独立开发者而言,DreamOmni2提供了一个强大的基础工具,使他们能够在之上构建更专业的应用,开发定制化的解决方案。这可能催生出围绕DreamOmni2的新的商业服务生态,例如提供定制化LoRA模型、企业级API服务或集成到其他创意软件中的插件,从而实现从技术优势向商业价值的转化。2

第三,推动标准与互操作性。 随着更多高性能开源模型的涌现,行业可能会逐步形成一套更开放、更互操作的技术标准,降低AI视觉创作的门槛,促进不同工具和平台之间的协作,最终加速整个产业的成熟。

数据范式与框架革新:新一代生成式AI的基石

DreamOmni2之所以能实现对抽象概念的理解和多图输入处理,离不开其在数据构建和模型框架上的核心创新。这不仅是模型性能优越的关键,也为未来生成式AI的发展提供了宝贵启示。

数据构建:三阶段范式解决“教材荒”。 生成式AI模型的强大能力往往受限于训练数据的质量和规模。对于多模态指令编辑与生成这类新任务,市场上缺乏现成的“(源图像+参考图像+指令)->目标图像”数据对。贾佳亚团队通过三阶段数据构建范式巧妙解决了这一难题:

  1. 创造高质量概念对:利用基础模型的文生图能力和新颖的特征混合方案,生成包含相同具体物体或抽象属性的高质量图像对,避免了传统拼接方法的分辨率和混淆问题。
  2. 生成多模态“编辑”数据:训练“提取模型”从图像中精准提取物体或属性,并结合指令编辑模型,构建完整的编辑训练数据对。
  3. 创建多模态“生成”教材:在编辑数据基础上,进一步提取更多物体或属性作为参考图像,构建多模态生成训练数据。

这一系统性方法构建了多样化、高质量的综合数据集,覆盖了具体物体和抽象属性的生成与编辑,并支持多参考图像输入,为DreamOmni2的卓越表现奠定了坚实基础1。它昭示着,定制化、合成与半合成数据将成为未来高级AI能力突破的关键

框架革新:让模型真正理解多图像输入。 面对SOTA模型(如FLUX Kontext)不支多图像输入和用户指令不规范的挑战,DreamOmni2引入了两项关键创新:

  1. 索引编码与位置编码移位:通过索引编码区分多张参考图像,并结合位置编码偏移方案,有效防止像素混淆和生成结果中的复制粘贴伪影,确保模型能清晰准确处理多图像输入。
  2. VLM与生成模型的联合训练:针对用户指令的复杂性和非结构化特性,团队提出联合训练方案,让强大的视觉语言模型(VLM,如Qwen2.5-VL)先理解用户意图,将其“翻译”成结构化指令,再交由生成/编辑模型执行。这显著提升了模型理解用户意图的能力,增强了在真实应用场景中的性能。

此外,通过LoRA微调策略,DreamOmni2在保留基础模型强大能力的同时,实现了多模态能力的无缝激活,展示了高效适应性训练在复杂模型演进中的重要性。

挑战与前瞻:AI创作的无限潜能与伦理边界

DreamOmni2的出现,无疑是AI创作领域迈向“意图导向”和“多概念融合”的关键一步。它预示着一个更加智能、全能的创作时代正在加速到来。

在未来3-5年内,我们可以预见到以下发展路径:

  • 多模态融合的深度与广度:AI将不仅限于图像与文本,而是会更深层次地融合视频、音频、3D模型甚至触觉反馈等多种模态,实现真正的沉浸式多模态创作。从单一的静态图像到动态视频、互动场景的生成与编辑,将成为常态。
  • 更强大的“情感与意图理解”:模型将通过更高级的VLM和多模态对齐技术,更好地理解人类情感、抽象意图和潜意识灵感,而非仅仅停留在具象指令层面,实现更深层次的人机共创。
  • 实时交互与个性化定制:随着算力提升和算法优化,AI图像编辑与生成将实现近乎实时的交互,并能根据用户独特的风格偏好和历史创作数据进行个性化定制,成为每个创作者的专属“副驾驶”。
  • 与行业工作流的无缝集成:DreamOmni2这类工具将更深入地集成到Adobe Creative Suite、AutoCAD、3D建模软件等专业工作流中,作为智能插件或内置功能,彻底变革设计、广告、电影、游戏开发等行业的工作方式。

然而,伴随无限潜能而来的是必须正视的伦理挑战。AI能够如此精准地模仿风格、姿态和面部表情,这在带来创作民主化机遇的同时,也加剧了对版权归属、原创性定义、深度伪造(deepfakes)滥用的担忧。当AI能够以极低的成本创造出与人类作品几乎无异,甚至更胜一筹的内容时,艺术家和创作者的价值将如何体现?如何确保模型训练数据的公平性,避免偏见传播?这些都需要技术开发者、政策制定者和社会各界共同探索应对策略,制定合理的治理框架。

DreamOmni2及其背后的技术范式,正在构建一个**“AI赋能个体创意,开源激发群体创新”**的新生态。它将不仅仅改变我们“P图”的方式,更将深刻影响人类表达创意、传播信息乃至认识世界的基本模式。我们正站在一个由“意图理解型AI”驱动的视觉文明新纪元的门槛上。

引用


  1. 谷歌痛失王座?港科大贾佳亚团队DreamOmni2开源,超强P图暴击Nano Banana · 新智元 · 犀牛 好困(2025/10/24)· 检索日期2025/10/24 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 被港科大开源超了?让海外创作者喊出「King Bomb」的P图大杀器来了 · 新浪科技 · (2025/10/23)· 检索日期2025/10/24 ↩︎