CVPR 2026 几何智能研究盘点：从看见形状，到理解运动与交互

52 0 0

文章摘要

当前三维视觉研究正经历从单纯重建形状向深度理解空间的范式转变，核心焦点已拓展至物体的可动结构、动态时空表示、多视角高效重建以及复杂几何算法的代码复现能力。这种转变标志着三维人工智能正从单点技术突破迈向系统级空间智能，以满足机器人操作、物理仿真与数字孪生等复杂场景的实际需求。

在静态物体的可动结构推断方面，PARTICULATE框架实现了从静态三维网格中自动预测完整的关节结构。该方法利用Transformer架构结合三维语义部件特征，能够在单次前向推理中同步输出部件分割、运动学树及关节运动参数。这一突破使三维模型从静态外观生成跨越至可交互对象理解，显著提升了模型对物体内部运动机制的认知能力。针对时间维度上的动态变化，Velox框架提出了一种紧凑且通用的四维动态物体表示学习方法。通过将时空彩色点云压缩为动态令牌，该框架无需预先时间对应关系即可统一建模几何结构与外观细节，成功将三维生成技术推进至动态世界建模阶段，为视频至四维生成及三维跟踪等任务提供了高效的统一表示。

随着模型复杂度的提升，推理效率与代码实现能力成为关键挑战。HeSS方法针对多视角三维重建中的全局注意力计算开销，提出了基于注意力头敏感度的稀疏化重分配策略。该方法通过精细化评估不同注意力头对几何信息的重要性，在保持高稀疏率的同时有效维持了相机位姿与点云重建的精度，实现了精度友好型加速。在算法复现层面，GeoCodeBench基准专门用于评估大语言模型在三维几何视觉领域的博士级代码生成能力。评测结果表明，当前大模型在处理基础几何公式时表现尚可，但在实现特定新算法与组合几何逻辑时仍存在显著不足，距离可靠的自动化三维视觉研究助手仍有较大提升空间。