CVPR 2026 三维视觉趋势梳理：从 RGB 感知，到真实世界建模

393 0 0

文章摘要

计算机视觉研究正从单纯依赖RGB外观表征，转向对三维结构、跨视角一致性、时间动态和观察过程的综合建模，以推动视觉模型具备更强的空间推理能力，从而更好地理解和应对真实世界中物体遮挡、深度歧义及高速动作等复杂场景。

在多视角几何方面，相关研究提出了针对未见物体的多视角RGB 6D姿态估计方法。该方法通过多视角特征度量对齐，将单视角候选姿态统一到三维坐标系中进行优化，无需物体专属训练和深度图即可实现高精度的全局一致姿态估计，显著提升了无纹理和反光物体在工业场景中的定位性能。

针对高速人体运动场景，研究人员构建了结合闪烁LED标记点与事件相机的低成本高频运动捕捉系统。该系统通过异步捕捉亮度变化自动生成毫秒级二维人体关键点标签，从根本上避免了低帧率视频插值对高速动作细节的遗漏，为体育动作分析和机器人模仿学习提供了高时间分辨率的数据与方法基础。

在开放集单图三维场景生成任务中，新的研究将复杂问题解耦为去遮挡、物体级三维生成和姿态估计三个阶段。这种解耦设计结合大规模高质量三维物体数据，有效解决了严重遮挡和未知物体类别下的形状缺失与布局不稳定问题，实现了更完整的物体几何与更合理的场景级空间布局生成。

在视频理解领域，研究提出相机运动轨迹本身包含丰富的语义信息，可作为独立的感知模态。通过构建轻量级轨迹编码器并将轨迹嵌入与自然语言描述对齐，证明了在身体运动明显或视觉线索不充分的场景中，仅凭相机轨迹即可实现高效的动作分类与事件理解，为视频感知提供了全新的低成本模态视角。