Meta又来“搞事情”!SAM 3.0曝光:这回真能“听懂人话”了,画面分割直接起飞!

温故智新AIGC实验室

TL;DR:

Meta的SAM模型又进化了!最新版SAM 3.0像开了“语言外挂”,你跟它“唠”两句想分啥,它就能精准识别并“画出来”。告别无聊的“点点框框”,这波视觉AI直接把“指哪打哪”升级成了“想啥画啥”,简直不要太酷炫!

谁说图像分割又枯燥又无聊?Meta可能要给你一个“啪啪打脸”的答案了。最近,圈子里突然爆出一条“猛料”:Meta家的“分割一切”模型(Segment Anything Model,简称SAM)竟然悄咪咪地推出了第三代——SAM 31 而且,这可不是小修小补,而是直接“开挂”,让模型终于能**“听懂人话”**了!这波操作,简直是给CV(计算机视觉)领域来了一次“王炸”升级,难怪有人直呼“要爆了”!(doge)

还记得当年SAM 1横空出世,把NLP(自然语言处理)领域“Prompt”的玩法硬是塞进了计算机视觉里,让“一键抠图”变得像玩游戏一样简单,瞬间引爆了整个CV圈,甚至有网友感慨“CV不存在了!”2 接着,SAM 2又秀了一波,不仅性能更强,还加入了视频和记忆功能。现在,SAM 3来了,它不甘于只做个“哑巴”工具人,而是摇身一变,成了能“秒懂你心”的视觉小助手。

这玩意儿到底怎么工作的?“想啥画啥”真不是吹!

以前我们用SAM,得在图上点一点,框一框,模型才能知道你要分割哪个物体。可想而知,这多多少少还是有点“笨拙”。现在SAM 3直接升级成了“语言理解大师”。你只要用大白话告诉它:“我要那只带条纹的猫!”SAM 3就能立马给你把图上所有符合描述的“条纹猫”都找出来,并且**全!部!精!准!分!割!**出来,简直不要太智能。

它能做到这一点,全靠一个新任务范式,Meta的研究团队给它起了个洋气的名字:PCS(Promptable Concept Segmentation),翻译过来就是“可提示概念分割”。简单来说,PCS的魔力在于:

  • 开放性词汇: 告别了“死板”的预设类别,你想分割啥,直接“说出来”就完事儿。
  • 全实例分割: 不仅要找到,还要把所有符合条件的实例都“一网打尽”,视频里还能保持它们“身份一致”。
  • 多模态提示: 不管你是说人话(文本),还是直接给个示例图(视觉),它都能懂,甚至能“连蒙带猜”(两者结合)。
  • 用户交互: 就算AI偶尔“犯迷糊”,你也能手把手调教,让结果更完美。

当然,要实现这种“想啥画啥”的能力,背后可不是靠“魔法”,而是硬核的技术堆砌。SAM 3的架构设计大有乾坤。它在检测与分割模块上玩了个“花活儿”,主要是在检测器里融入了DETR(Deformable Transformer)架构,这让模型能根据你的语言和视觉提示,直接生成实例级的检测结果。更牛的是,它还引入了一个Presence Head模块。这玩意儿就像是把传统检测器里“找东西”(定位)和“认东西”(识别)这两个容易“打架”的任务给**“解耦”**了,让它们各司其职,从而大大提升了检测的精准度,尤其是在多实例分割这种“复杂现场”。

“Presence Head的出现,就像是给模型分配了一个‘质检员’和一个‘定位员’,他们分工合作,效率和准确率自然就‘蹭蹭蹭’地往上涨了。”

为了把这个“乖孩子”训练得足够聪明,研究团队更是下了血本,搭建了一个超大规模的数据引擎。它能生成包含400万个独特概念标签、5200万个经过验证的掩码的训练数据集。这规模,简直就是给SAM 3喂了一座“知识金山”!而且,在数据构建过程中,人类和大语言模型还会“交叉检查”彼此的工作,确保数据质量的同时,效率也直接“起飞”

跑分出炉!SAM 3.0不止“嘴甜”,实力更是“打穿地板”!

光说不练假把式。SAM 3的实验结果一出,直接“刷新三观”,在可提示分割任务中稳稳地坐上了**SOTA(State-Of-The-Art)**的宝座。

  • 在LVIS数据集的零样本分割任务中,SAM 3的准确率达到了47.0,比此前的SOTA 38.5**直接“吊打”**了一截。
  • 为了更全面地评估模型,论文还提出了一个全新的SA-Co(Segment Anything with Concepts)基准。这个基准的规模和概念覆盖范围,比现有基准大了足足50倍!而SAM 3在这个“魔鬼测试”中,表现至少比基线方法强2倍,简直是“降维打击”
  • 在视频分割任务中,SAM 3也丝毫不逊色,性能同样优于前代SAM 2。

最让人惊喜的是,研究人员还玩了一把**“梦幻联动”:把SAM 3和多模态大模型(MLLM)组合起来!3 比如,你想分割图片中“坐着但没拿礼物盒的人”,这个指令有点复杂吧?MLLM会先帮你“拆解”需求,比如先找坐着的人,再排除拿礼物盒的人,然后把分解后的指令发给SAM 3。结果呢?这个“王炸组合”的效果,竟然比专门做推理分割的模型还要好,而且还不需要额外的数据训练,简直是“白嫖”的胜利!**

“SAM 3+MLLM的组合,就像是给了一个拥有超强绘画能力的画家,又配上了一个能深刻理解你复杂需求的金牌助理。这画面,美得让人不敢看!”

在性能方面,SAM 3也是一个“速度与激情”的代名词。在H200 GPU上,处理一张包含100多个物体的图像,它只需要30毫秒,快到你眨眼的功夫都嫌慢!即便在视频任务中处理多个目标,也能保持接近实时的性能。

当然,AI也不是“十全十美”。论文也坦诚了一些“小瑕疵”:比如SAM 3在零样本情况下,还难以泛化到医疗图像、热成像这类“小众”领域。另外,视频分割如果目标太多,实时性能也会打折扣,可能得**“多核处理器”**才能搞定。但瑕不掩瑜,这并不妨碍它成为图像分割领域的一次重大突破。

SAM 3的登场,无疑让视觉AI再次站在了新的风口浪尖。从“指哪打哪”到“想啥画啥”,我们离那个“AI秒懂人心”的未来,又近了一大步。未来,这项技术会如何颠覆我们的生活和工作?或许,更多“炸裂”的应用场景,正在悄然萌芽!

引用


  1. Meta「分割一切」3.0曝光,技能语义分割加入概念提示,好好玩,要爆了·量子位·鱼羊(2025/10/13)·检索日期2025/10/13 ↩︎

  2. Meta带来GPT-3时刻!又一个行业会被彻底颠覆?·万维读者网(未知)·检索日期2025/10/13 ↩︎

  3. 人工智能话题下的优秀答主·知乎(未知)·检索日期2025/10/13 ↩︎