清华赵昊最新力作:0.4 秒完成4D高斯重建,自驾仿真新SOTA丨GAIR 2025
文章摘要
【关 键 词】 自动驾驶、动态场景、三维重建、神经网络、仿真技术
自动驾驶技术在开放世界中面临多重挑战,包括动态交通环境中的复杂对象交互。传统解决方案依赖逐场景优化、已知相机校准或短帧窗口,导致效率低下且实用性受限。能否快速、低成本获取动态驾驶场景的仿真数据,成为决定自动驾驶系统进化速度的关键。清华大学智能产业研究院赵昊团队提出首个无姿态前馈三维重建框架DGGT,通过多头联合预测结构实现稀疏图像输入下的长序列场景重建,其核心突破在于摆脱了对逐场景优化和相机标定的依赖。
DGGT框架采用ViT编码器融合DINO先验,通过六个并行预测头实现多功能输出:相机头估计参数、Gaussian头生成场景表示、lifespan头控制时间可见度、动态头输出运动遮罩、运动头估计三维位移、天空头建模远景背景。这种设计使系统能一次性预测完整的4D场景状态,清晰分离静态背景与动态实体,并保持时间连贯性。实验数据显示,DGGT在Waymo数据集上达到27.41 PSNR,每场景推断仅需0.39秒,性能超越现有优化基线和前馈方法。
跨数据集泛化能力是DGGT的另一显著优势。通过将相机位姿从输入转为模型输出,系统在Waymo训练后,于nuScenes和Argoverse2上实现零样本泛化,关键感知指标较STORM提升超50%。研究团队验证了零样本和从头训练两种设置,DGGT均表现出SOTA级性能。该系统还支持高斯层级的实例编辑,如移除车辆或插入新对象,配合单步扩散精修可有效抑制运动伪影。
DGGT为动态驾驶场景仿真开辟了新路径。其亚秒级推理速度与高质量重建的平衡,满足了工业界对效率与精度的双重需求。该技术有望作为实时预处理模块集成到自动驾驶系统的全流程中,推动低成本生成训练数据的新范式发展。赵昊团队将在2025年GAIR大会上分享相关研究成果,该突破性进展标志着自动驾驶仿真技术向高速、可扩展阶段迈出了重要一步。
原文和模型
【原文链接】 阅读原文 [ 1846字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★☆☆



