可控图像生成最新综述！北邮开源20页249篇文献，包揽Text-to-Image Diffusion领域各种「条件」

AIGC动态1年前 (2024)发布 AIera

1,772 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

<新智元报道了一篇关于文本到图像（T2I）扩散模型的最新研究进展>。随着视觉生成领域的快速发展，<扩散模型>在该领域取得了重大突破。然而，仅依赖文本来调节这些模型并不能满足多样化和复杂需求。因此，研究人员开始探索在T2I模型中引入更多类型的条件以生成图像。

北京邮电大学的研究人员对具有T2I扩散模型可控性生成的文献进行了彻底审查，涵盖了理论基础和实际进展。他们将可控生成任务分为三个子任务：具有特定条件生成、具有多个条件生成和通用可控生成。

1. 利用特定条件生成：研究主要集中在如何在特定条件下生成图像，例如基于图像引导的生成和草图到图像的生成。这些方法可以根据条件类型进一步分类，包括定制条件（如、）和直接条件（如、生理信号-to-Image）。

2. 多条件生成：这类任务旨在根据多种条件生成图像。技术方法可以分为联合训练、持续学习、权重融合和基于注意力的集成。

3. 统一可控生成：这个任务旨在能够利用任意条件（甚至任意数量）进行生成。通用条件分数预测框架和通用条件引导分数估计是两类主要方法。

在T2I扩散模型中引入新的条件的方法包括条件得分预测和条件引导的得分评估。条件得分预测方法通过可训练模型预测去噪过程中的概率得分，而条件引导的得分评估方法通过条件预测模型反传梯度来增加条件指导。

这些方法在多个任务中发挥用处，包括图像编辑、图像补全、图像组合和文/图生成3D。例如，在图像编辑中，可以利用定制化方法将图中出现的猫编辑为具有特定身份的猫。

总结来说，这篇综述深入探讨了文本到图像扩散模型的条件生成领域，揭示了融入文本引导生成过程中的新颖条件。作者为读者提供了基础知识，介绍了去噪扩散概率模型、著名的文本到图像扩散模型以及一个结构良好的分类法。此外，作者还探索了可控生成的实际应用，强调其在AI内容生成时代发挥重要作用和巨大潜力。这项调查旨在全面了解当前可控T2I生成领域的现状，从而促进这一充满活力研究领域的持续演变和拓展。

原文信息

【原文链接】 阅读原文
【阅读预估】 2467 / 10分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。