文章摘要
【关 键 词】 AI技术、3D建模、场景生成、虚拟导航、华为研究
华为联合上海交通大学、华中科技大学推出的WorldGrow世界模型,实现了1800㎡超大室内场景的高效生成与智能导航。该模型通过三大核心技术突破传统3D场景构建的局限性:数据精准预处理确保区块内容密度,3D块补全机制实现无缝拼接,以及粗到精生成策略优化整体布局与细节。实验数据显示,其几何重建指标MMD、COV达到当前最优水平,FID低至7.52,生成速度是同类技术的6倍。
数据预处理阶段采用双数据集架构,分别处理宏观布局与纹理细节。从3D-FRONT数据集中提取优质样本后,通过Blender进行场景切片与区块切分,occupancy检测保证每个区块可见内容≥95%。这种分层处理方式为后续生成奠定了高质量数据基础。
3D块补全机制通过结构生成器与latent生成器的协同工作,解决了场景拼接的连贯性问题。模型将带噪潜变量、补全区域掩码和已知特征融合输入,依据上下文生成新区块,有效消除边缘断裂和纹理错位。该方法在扩展到7×7块的大场景时仍能保持边缘质量稳定。
粗到精的生成策略将场景扩展转化为缺失块补全任务。粗结构模型先确定窗户朝向、走廊连接等宏观布局,再通过三线性插值上采样匹配细块分辨率,最终由细结构生成器添加家具纹理等细节。这种分阶段处理既保证了逻辑合理性,又实现了照片级真实感外观。
技术团队由上海交通大学Sikuang Li和Chen Yang主导,后者目前仍为华为研究实习生。通讯作者田奇作为华为终端BG首席科学家,其学术背景为研究提供了重要支撑。该成果在单张A100显卡上30分钟即可生成272㎡场景,为虚拟现实、游戏开发等领域提供了高效工具。论文已发布于arXiv平台,相关代码与数据有望进一步推动行业应用。
原文和模型
【原文链接】 阅读原文 [ 884字 | 4分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★☆☆☆




