北大、字节、中科院自动化研究所等提出图像并行生成新范式

AIGC动态13小时前发布 AIGCOPEN
47 0 0
北大、字节、中科院自动化研究所等提出图像并行生成新范式

 

文章摘要


【关 键 词】 多模态AI并行生成语义对齐扩散框架强化学习

当前多模态AI领域存在一个反直觉现象:让模型在生成图像前进行文本推理,反而会降低生成结果的语义保真度。这一发现源于主流自回归架构的固有缺陷——上游推理文本的微小偏差会通过误差传播机制被下游图像生成模块放大。北京大学等机构的研究团队通过构建ParaBench诊断基准,系统验证了顺序生成模式下图文协同断裂的问题根源:现有评估体系仅关注端到端结果,却忽视了推理文本与生成图像的过程对齐。

为解决这一核心问题,研究团队提出革命性的并行多模态扩散框架MMaDA-Parallel。该架构通过离散Token化统一表示图文数据,实现文本与图像在生成过程中的双向实时互校。其创新性体现在三个层面:在架构层面采用全向注意力机制,消除传统下三角掩码的限制;在训练层面设计时间步相关损失权重,平衡不同模态的学习动态;在解码层面引入双调度器机制,分别优化文本的线性揭示与图像的余弦揭示节奏。这种设计哲学将多模态协同从”接力跑”转变为”双人舞”,使模型能在生成轨迹中逐步建立跨模态的语义同步。

研究团队进一步开发了并行强化学习(ParaRL)方法,突破传统输出级反馈的局限。通过稀疏优化策略对关键时间步的中间态进行语义对齐评估,将奖励信号渗透至生成全流程。配合15万条含推理痕迹的高质量数据集,MMaDA-Parallel在ParaBench基准上将输出对齐指标提升6.9%,显著优于数据量更大的Bagel模型。定性分析显示,该框架能精确实现物理状态变化(如蛋糕融化)、生物过程(植物枯萎)等需要深层逻辑推理的视觉转化,证明并行架构在复杂语义理解上的突破性进展。

这项研究不仅揭示了顺序生成范式的根本缺陷,更通过构建包含诊断基准、并行架构、轨迹优化在内的完整技术体系,为多模态AI的发展提供了新范式。其核心价值在于证明:真正的智能生成不是分阶段的流水作业,而是多模态要素在时空维度上的协同涌现。这为后续研究开辟了包括动态模态权重分配、跨模态因果推理等富有潜力的探索方向。

原文和模型


【原文链接】 阅读原文 [ 3957字 | 16分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...