华为世界模型来了！单卡30分钟生成272㎡场景

640 0 0

文章摘要

华为联合上海交通大学、华中科技大学推出的WorldGrow世界模型，实现了1800㎡超大室内场景的高效生成与智能导航。该模型通过三大核心技术突破传统3D场景构建的局限性：数据精准预处理确保区块内容密度，3D块补全机制实现无缝拼接，以及粗到精生成策略优化整体布局与细节。实验数据显示，其几何重建指标MMD、COV达到当前最优水平，FID低至7.52，生成速度是同类技术的6倍。

数据预处理阶段采用双数据集架构，分别处理宏观布局与纹理细节。从3D-FRONT数据集中提取优质样本后，通过Blender进行场景切片与区块切分，occupancy检测保证每个区块可见内容≥95%。这种分层处理方式为后续生成奠定了高质量数据基础。

3D块补全机制通过结构生成器与latent生成器的协同工作，解决了场景拼接的连贯性问题。模型将带噪潜变量、补全区域掩码和已知特征融合输入，依据上下文生成新区块，有效消除边缘断裂和纹理错位。该方法在扩展到7×7块的大场景时仍能保持边缘质量稳定。

粗到精的生成策略将场景扩展转化为缺失块补全任务。粗结构模型先确定窗户朝向、走廊连接等宏观布局，再通过三线性插值上采样匹配细块分辨率，最终由细结构生成器添加家具纹理等细节。这种分阶段处理既保证了逻辑合理性，又实现了照片级真实感外观。

技术团队由上海交通大学Sikuang Li和Chen Yang主导，后者目前仍为华为研究实习生。通讯作者田奇作为华为终端BG首席科学家，其学术背景为研究提供了重要支撑。该成果在单张A100显卡上30分钟即可生成272㎡场景，为虚拟现实、游戏开发等领域提供了高效工具。论文已发布于arXiv平台，相关代码与数据有望进一步推动行业应用。