谷歌4D世界模型来了,比SOTA快300倍!

AIGC动态3小时前发布 AIera
53 0 0
谷歌4D世界模型来了,比SOTA快300倍!

 

文章摘要


【关 键 词】 动态重建计算机视觉实时追踪4D技术谷歌DeepMind

谷歌DeepMind最新发布的D4RT(Dynamic 4D Reconstruction and Tracking)技术彻底改变了动态4D重建的范式。这项技术通过统一的「时空查询」接口,同时实现了全像素追踪、深度估计与相机位姿的精准计算,不仅精度远超现有方法,速度更是比当前最优技术快出18到300倍。这一突破为具身智能、自动驾驶和增强现实(AR)领域提供了全新的技术基石,使得AI能够像人类一样实时理解动态世界。

传统动态重建需要依赖多个独立模型拼接的复杂流程,例如光流计算、深度估计和相机位姿优化,不仅耗时且容易因环节错误导致整体失效。D4RT的核心创新在于将割裂的任务统一为一个极简的查询动作,通过全局编码和并行计算大幅提升效率。其编码器将整段视频压缩为全局场景表征,形成AI的「长期记忆」,而解码器则通过灵活的时空查询机制,动态响应任意像素在特定时间和视角下的3D坐标需求。这种设计使得D4RT能够一次性处理数万个独立查询,充分利用硬件并行能力,从而在吞吐量上实现数百倍的提升。

在技术细节上,D4RT通过引入9×9图像块(Patch)作为查询的辅助信息,显著提高了重建的细节精度。此外,模型在动态场景中展现出卓越的鲁棒性,例如能够准确追踪被遮挡或移出画面的像素轨迹,并推断其运动趋势。论文中的对比实验显示,D4RT在24帧/秒的视频中可同时追踪1570条3D轨迹,远超同类技术的84条上限,真正实现了「全像素级感知」。

这项技术的潜在应用场景广泛。在具身智能和自动驾驶领域,D4RT的实时动态感知能力为机器人预判环境变化提供了关键支持;在AR领域,其高效推理特性有望推动低延迟的虚实交互体验落地。对普通用户而言,未来手机视频编辑可能实现类似《黑客帝国》的视角自由切换或动态对象编辑功能。

尽管训练成本高昂(需64个TPU芯片训练两天),D4RT的推理效率仍标志着计算机视觉从静态分析向四维时空理解的跨越。它揭示了一种新的AI认知范式:世界不再被逐帧解析,而是作为一个连贯的时空整体被存储和检索。这一进展不仅挑战了传统动态重建的技术边界,也为AI在复杂场景中的实时决策开辟了新的可能性。

原文和模型


【原文链接】 阅读原文 [ 2666字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...