分割一切并不够,还要3D重建一切,SAM 3D来了
文章摘要
【关 键 词】 人工智能、3D重建、计算机视觉、模型发布、技术创新
Meta近期发布了SAM 3D和SAM 3两项重大技术更新,标志着计算机视觉领域的新突破。其中,SAM 3D包含两个子模型:SAM 3D Objects专注于物体与场景的3D重建,SAM 3D Body则致力于人体形状与姿态估计。这两个模型均展现出业界领先的性能,能够将静态2D图像转化为细致的3D重建结果。
在3D物体重建方面,SAM 3D Objects提出了一种全新的技术路径。该模型突破了传统方法对合成数据的依赖,通过创新的数据标注引擎,首次在真实世界图像上标注了近100万张图像,生成了约314万个3D网格。这种数据引擎采用多阶段训练流程,让标注人员对模型生成的候选结果进行评分,仅将最复杂案例交由专业艺术家处理。这种机制形成了数据质量与模型性能的正向循环,使模型能够处理日常照片中的小物体、侧视角和遮挡等复杂情况。
对于人体重建,SAM 3D Body基于全新的Meta Momentum Human Rig格式,将骨骼结构与软组织分离建模。该模型采用Transformer架构,支持通过分割掩码和2D关键点等交互输入进行精确控制,在包含800万张图像的数据集上训练后,能够处理遮挡、罕见姿态等挑战。测试表明,其在多个3D基准测试中均超越现有模型。
同期发布的SAM 3引入了可提示概念分割技术,能够根据文本或示例图像提示,精准定位并分割特定概念的所有实例。为评估这项技术,Meta构建了SA-Co基准,其概念词汇量远超以往标准。模型架构整合了Meta Perception Encoder、DETR检测框架等多项先进技术,在概念分割任务中将cgF1分数提升了两倍,推理速度在H200 GPU上可达单帧30毫秒。
为促进技术普及,Meta开放了模型权重与推理代码,并推出Segment Anything Playground交互平台。这些进展不仅突破了3D重建和数据标注的长期瓶颈,也为计算机视觉与增强现实等领域的融合应用开辟了新路径。技术文档显示,相关创新主要源自数据引擎设计、训练范式革新以及多模态提示系统的协同优化。
原文和模型
【原文链接】 阅读原文 [ 2047字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




