Sora场景转「3D资产」！浙大CAD&CG全重实验室提出文本转3D新SOTA：多功能、可拓展

217 0 0

文章摘要

【关键词】 3D场景、生成工具、Stable Diffusion、深度方法、视频生成

新智元报道了一种名为3D-SceneDreamer的新型3D场景生成工具，该工具采用基于Stable Diffusion的Inpainting模型，结合单目深度方法，以优化场景的三维结构。3D-SceneDreamer旨在通过直观的文本描述和预设的相机轨迹生成具备三维一致性的永久性三维场景。这一技术的出现，有望减少对专业技能的需求，促进3D场景的创造。

传统的3D创作工具，如InfiGen和Blender，虽然功能强大，但通常需要专业的建模技能和大量的手工操作，耗时且效率低下。而3D-SceneDreamer则提供了一种直观、多功能且可控性强的3D场景生成方法。通过超大规模训练，该工具能够生成展现连贯三维空间运动的视频，并精准模拟物体间的物理互动，同时确保视频中物体的空间一致性。

3D-Scene-Dreamer的框架包括场景上下文初始化、统一的3D表示和3D感知生成细化三个部分。场景上下文初始化通过深度估计方法ZoeDepth估计初始视角下的三维场景几何，并通过基于深度的可微分渲染生成一系列视图。统一的3D表示采用神经辐射场作为统一的3D表示，以实现更通用的场景生成并保持3D一致性。3D感知生成细化则利用大规模自然图像先验来优化渲染图像，减轻长期外推过程中的累积误差问题。

在实验验证方面，3D-Scene-Dreamer在视觉质量和3D一致性方面表现出较高的水平。与现有的文生视频方法、全景图生成方法和文本生成场景方法相比，新方法展现出较高的视觉质量和较好的三维一致性。然而，目前还没有与最新的视频生成方法进行比较。

未来展望方面，学术界的场景生成工作应用仍然局限，难以生成大规模场景，小场景的生成质量也未达到工业界应用的要求。随着Sora等模型的出现，3D连贯一致性的运动生成让我们思考是否还需要重建3D表征，或者能否直接以视频作为载体生成3D场景。从3D物体生成的进展中，我们可以得到灵感，从最初的DreamFusion到Large Reconstruction Model，模型逐渐具备了根据单图直推3D模型的能力。然而，场景生成的规模扩大难度较大，主要难点包括大规模的3D场景数据集收集困难、相机轨迹与场景结构绑定以及难以对场景进行具备完备观测的采样。从视频生成角度构建3D场景需要满足内容可控性、相机轨迹可控性和较好的时空一致性三个要求。尽管Sora等模型尚未完美解决这些问题，但它们为构建3D场景提供了新的可能性。