原生3D-VAEs,1536³三维分辨率,清华与微软TRELLIS 2开启3D全能生成新纪元

AIGC动态12小时前发布 AIGCOPEN
45 0 0
原生3D-VAEs,1536³三维分辨率,清华与微软TRELLIS 2开启3D全能生成新纪元

 

文章摘要


【关 键 词】 AI3D生成技术创新计算机图形学神经网络

清华与微软团队推出的TRELLIS 2系统通过创新的O-Voxel表示法,实现了高精度3D资产的快速生成。该系统能够在1分钟内生成1536³分辨率的3D模型,同时包含复杂的物理材质属性。核心突破在于解决了拓扑灵活性与存储效率之间的矛盾,克服了传统方法如SDF和3D高斯泼溅的局限性。O-Voxel采用双格点结构,结合16倍空间压缩能力的SC-VAE和40亿参数的流匹配模型,显著提升了生成质量和效率。

三维表示法在神经网络时代经历了显著进化。从网格建模到体素化表达,再到内隐函数,每一步都在寻找计算机视觉与图形学之间的平衡点。当前3D生成领域面临的主要挑战是如何让神经网络创造出符合物理规律且细节丰富的模型。TRELLIS 2的O-Voxel不仅是一种几何表示,还集成了材质、透明度等全方位信息,灵感来源于Dual Contouring算法,能够处理自相交表面和完全封闭的内部结构。

SC-VAE是3D领域空间压缩率最高的架构之一,采用了残差自编码设计和早期剪枝上采样机制。这种设计大幅降低了内存消耗并提升了推理速度。在极致压缩下,一个1024分辨率的全贴图资产仅需9.6K个潜变量令牌即可完成编码,且几乎没有视觉感知上的退化。残差块的设计摒弃了传统卷积堆叠,采用混合结构,增强了非线性表达能力。

生成过程分为三个阶段:稀疏结构生成、几何生成和材质生成。材质生成阶段直接在3D空间中建模PBR参数,避免了多视角渲染合成时的色彩不一致问题。生成的资产可以直接用于虚幻引擎或Unity,表现出真实的物理反馈。模型训练使用了80万个高质量资产的数据集,并利用流量匹配范式,在处理超大规模潜变量空间时表现出更好的收敛性。

实验数据表明,TRELLIS 2在关键指标上全面超越了竞争对手,用户主观评价也显示了更高的偏好率。测试时计算量缩放的潜力使得系统能够适应多种场景需求。TRELLIS 2的成功不仅降低了高精度3D资产的门槛,还为未来三维世界的自动化构建奠定了技术基石。随着3D生成速度和质量接近2D图像,互联网内容形态可能迎来新的变革。

原文和模型


【原文链接】 阅读原文 [ 2255字 | 10分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...