浙大彭思达团队 × 理想最新研究:直面高分辨率深度的细节缺失
文章摘要
【关 键 词】 单目深度估计、隐式神经表达、分辨率预测、几何一致性、三维重建
高分辨率深度估计在实际应用中面临几何一致性不足的问题,现有方法通过插值放大固定分辨率预测结果的方式导致细节区域误差放大,影响自动驾驶和三维重建等下游任务的精度。 针对这一瓶颈,浙江大学彭思达团队提出InfiniDepth方法,将深度建模为连续空间中的隐式神经表达,支持在任意图像坐标位置直接预测深度值,从而突破传统像素网格预测的分辨率限制。
在Synth4K合成数据集上的实验表明,该方法在高频细节区域具有显著优势。InfiniDepth在五个子数据集的δ1指标平均领先主流方法5-8个百分点,高频区域的性能下降幅度最小,表明其对边缘结构和薄物体的表达能力更强。 这种能力对自动驾驶场景中的路缘、护栏等关键元素感知尤为重要。值得注意的是,该方法通过坐标级深度预测实现原生4K输出,其优势并非来自后处理技巧。
真实数据集上的零样本测试结果显示,基于合成数据训练的模型在KITTI、ETH3D等真实场景中保持与现有方法相当的泛化能力,δ1指标基本持平。 当引入稀疏深度提示进行尺度估计时,该方法在Synth4K上的δ0.01指标达到78.0%,较PromptDA提升13个百分点,高频区域优势进一步扩大到12.5个百分点差异。真实数据场景中,DIODE数据集的δ0.01指标达98.4%,验证了连续表示对尺度深度预测的增益。
新视角合成实验证明该方法构建的三维点云分布更均匀,大视角变化下的几何断裂显著减少。 消融研究表明,移除连续表示会导致性能下降8-12个百分点,多尺度局部特征查询机制的缺失同样引起细节区域退化。这些定量结果共同表明,深度表示方式本身是制约分辨率扩展性和几何恢复能力的关键因素。
该研究的核心价值在于通过系统性实验揭示了传统离散网格表示的局限性,连续隐式表达不仅提升二维深度图质量,更为三维环境建模提供稳定的几何基础。 对于自动驾驶系统,这种高一致性深度感知能增强复杂场景的空间理解可靠性,推动感知-决策链条的整体优化。研究团队构建的Synth4K数据集和量化分析框架,为高分辨率深度估计研究提供了新的基准验证工具。
原文和模型
【原文链接】 阅读原文 [ 3719字 | 15分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



