ICLR 2026｜美图提出位置编码场 PE-Field ，让 DiT 感知和控制 3D 空间

42 0 0

文章摘要

随着视频和3D生成走向专业化内容生产端，AI创作对空间一致性和可控性的要求不断提升。然而，现有生成模型在处理连续视角或动态运动时，往往难以维持稳定的空间一致性，容易出现镜头运动不流畅、空间透视关系错乱以及多视角内容不连续等问题。因此，提升生成模型的空间理解能力成为AI视觉领域的重要研究方向。

针对空间一致性挑战，美图影像研究院联合德克萨斯大学提出了一种名为PE-Field的3D位置编码框架，该成果已被国际顶级人工智能会议ICLR 2026收录。研究团队发现扩散Transformer中的图像块令牌具有一定独立性，生成图像的空间连贯性在很大程度上受到位置编码的引导。基于这一关键发现，PE-Field将传统的2D位置编码扩展为结构化的3D场，使模型能够更加直接且高效地在三维空间中处理复杂的几何信息。

在技术实现上，该框架主要包含深度感知编码和层次化编码两个核心模块。深度感知编码引入了Z轴方向的深度信息，赋予模型体积推理的潜力以感知三维深度结构；层次化编码则允许模型在更精细的层面对几何结构进行建模。实验结果表明，引入该框架的模型在单张图像的新视角合成任务中展现出极具竞争力的性能，能够通过调整位置编码生成高质量的多视角结果。同时，该框架在特定物体的3D编辑、物体移除等可控空间图像编辑任务中也表现出优异的泛化能力与灵活性。

生成式AI正逐步融入专业化的内容创作场景，对模型的空间关系建模能力提出了更高要求。相关前沿研究正加速转化为实际产品能力，广泛落地于各类AI影像产品中，推动智能创作在专业与大众场景的深度应用，持续满足真实且高频的创作需求。