华为世界模型来了!单卡30分钟生成272㎡场景

AIGC动态14小时前发布 QbitAI
60 0 0
华为世界模型来了!单卡30分钟生成272㎡场景

 

文章摘要


【关 键 词】 AI技术3D建模场景生成虚拟导航华为研究

华为联合上海交通大学、华中科技大学推出的WorldGrow世界模型,实现了1800㎡超大室内场景的高效生成与智能导航。该模型通过三大核心技术突破传统3D场景构建的局限性:数据精准预处理确保区块内容密度,3D块补全机制实现无缝拼接,以及粗到精生成策略优化整体布局与细节。实验数据显示,其几何重建指标MMD、COV达到当前最优水平,FID低至7.52,生成速度是同类技术的6倍。

数据预处理阶段采用双数据集架构,分别处理宏观布局与纹理细节。从3D-FRONT数据集中提取优质样本后,通过Blender进行场景切片与区块切分,occupancy检测保证每个区块可见内容≥95%。这种分层处理方式为后续生成奠定了高质量数据基础。

3D块补全机制通过结构生成器与latent生成器的协同工作,解决了场景拼接的连贯性问题。模型将带噪潜变量、补全区域掩码和已知特征融合输入,依据上下文生成新区块,有效消除边缘断裂和纹理错位。该方法在扩展到7×7块的大场景时仍能保持边缘质量稳定。

粗到精的生成策略将场景扩展转化为缺失块补全任务。粗结构模型先确定窗户朝向、走廊连接等宏观布局,再通过三线性插值上采样匹配细块分辨率,最终由细结构生成器添加家具纹理等细节。这种分阶段处理既保证了逻辑合理性,又实现了照片级真实感外观。

技术团队由上海交通大学Sikuang Li和Chen Yang主导,后者目前仍为华为研究实习生。通讯作者田奇作为华为终端BG首席科学家,其学术背景为研究提供了重要支撑。该成果在单张A100显卡上30分钟即可生成272㎡场景,为虚拟现实、游戏开发等领域提供了高效工具。论文已发布于arXiv平台,相关代码与数据有望进一步推动行业应用。

原文和模型


【原文链接】 阅读原文 [ 884字 | 4分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...