ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」

ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」

 

文章摘要


【关 键 词】 图像分割人工智能计算机视觉Meta研究深度学习

Meta的研究团队可能推出了「Segment Anything」系列的最新版本SAM 3,相关匿名论文已提交至ICLR 2026。该论文提出了「可提示概念分割」(PCS)任务,通过文本或图像范例作为输入,系统能够识别并分割出所有匹配的视觉概念实例。与之前版本不同,SAM 3不再局限于手动标注,而是能够理解简单的名词短语(如「红苹果」),并在图像或视频中精确标记所有对应对象。

SAM 3在性能上实现了显著提升。在新基准SA-Co上的表现比前代系统提高至少2倍,在LVIS数据集上零样本掩码平均精度达到47.0,远超之前38.5的最佳纪录。处理含100多个物体的图像仅需30毫秒(使用H200 GPU)。系统采用双编码器-解码器Transformer架构,结合跟踪器和内存模块,适用于视频分析。研究团队还构建了包含400万独特短语和5200万掩码的高质量训练数据集。

这项技术引发了学术界的讨论。有观点认为,基于文本描述的分割并非全新概念,与已有的「指代分割」研究存在重叠。也有评论指出,开源社区通过组合检测模型与LLM API已实现类似功能。针对概念模糊性问题(如「小窗户」的定义),研究团队在数据收集和模型训练阶段进行了系统化处理,允许用户通过优化提示消除歧义。

实验数据显示,SAM 3在多类任务中表现优异。在开放词汇数据集SA-Co/Gold上的CGF分数是OWLv2的两倍;10-shot设置下性能超过Gemini;视频分割任务中显著优于基线方法。研究同时创建了包含214K独特概念的大规模基准测试集,规模是现有标准的50倍以上。这些进展标志着计算机视觉领域在语义理解和分割精度方面的重要突破。

原文和模型


【原文链接】 阅读原文 [ 2042字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...