港广科陈昶昊团队：只用一张 RGB 图像，让机器读懂室内 3D 空间丨CVPR 2026

454 0 0

文章摘要

面向未来家庭与服务机器人的空间交互需求，室内三维视觉感知面临场景高度动态、遮挡密集及预定义类别受限等挑战，传统方案通常依赖昂贵的逐体素语义标注。为突破应用瓶颈，研究团队提出仅以单目RGB图像和二值几何占用标签为输入的预测框架。该框架在完全摒弃三维语义体素标注的前提下，成功实现了高质量的室内开放词汇三维占用预测。算法核心采用三维高斯表示，将几何形态与语言语义向量深度绑定。针对密集遮挡引发的特征混淆，研究引入基于泊松分布的转换机制，将多高斯的空间影响力转化为可自然累积的占用证据，显著稳定了几何重建过程。结合渐进式温度衰减策略，模型在训练初期维持平滑融合以巩固整体结构，后期动态降低温度以锐化特征权重，从而彻底剥离重叠区域的语义串扰。

验证结果表明，该方法在几何交并比指标上大幅超越采用全量监督的闭集模型，单卡推理帧率远超同类基线，且支持对长尾物体进行自然语言检索。研究摒弃了传统密集标注依赖，转而借助二维开放词汇模型生成对齐特征进行一致性监督，极大压缩了大规模三维语义系统的构建成本。尽管开放词汇的语义平均交并比与特定表述的提示词稳定性仍有提升空间，并受限于单目深度歧义，但该路径有效打通了从单目影像到可交互三维空间的映射链路。其显著降低了三维理解的技术门槛，推动空间认知从固定分类向自然语言交互跨越，为具身智能体的复杂场景导航与任务规划提供了可靠的底层支撑。