「个性化」图像生成时代来了！六大顶尖高校联手发布全新Gen4Gen框架

254 0 0

文章摘要

近年来，基于文本的图像生成技术取得了显著进展，特别是在生成个性化内容方面。个性化内容生成指的是用户提供一组最小概念图像集，然后对预训练的文本转图像扩散模型进行增强，以生成包含个性化概念的新场景。然而，当涉及到多个概念时，这一任务变得更加复杂。

为了解决这一挑战，一组来自多个知名大学的研究人员提出了一种半自动数据集创建管道Gen4Gen，它结合了个性化概念和文本描述，创建了一个名为MyCanvas的基准测试数据集。此外，他们还设计了两个综合指标CP-CLIP和TI-CLIP，用于量化多概念个性化文本到图像扩散方法的性能。

研究人员指出，当前的个性化技术难以可靠地扩展到多个概念，部分原因可能是预训练数据集中复杂场景与简单文本描述之间的不匹配。此外，缺乏全面的评估标准来衡量图像中是否包含所有概念以及是否准确反映了整体文本描述。

为了解决这些问题，研究人员提出了三个数据集设计原则：详细的文字描述与图像配对、合理的物体布局和背景生成、以及高分辨率图像。Gen4Gen管道包括对象关联、LLM引导的对象组合、背景重绘和图像重构三个阶段。MyCanvas数据集包含150个对象和超过10,000张图片，其中2684张图片经过手动筛选，具有最佳的重绘质量。

研究人员还探索了提升训练时间的文本提示策略，包括全局合成token、重复概念token提示和结合背景提示。这些策略有助于提高模型在生成图像时的准确性和泛化能力。

CP-CLIP评分用于评估组合和个性化的准确率，而TI-CLIP评分则用于评估模型在不同文本背景下的泛化质量。实验结果表明，通过改进数据质量和提示策略，可以显著提高多概念个性化图像生成的质量。

定量分析显示，使用MyCanvas数据集和改进的提示策略后，CP-CLIP分数有所提高，而TI-CLIP分数保持一致，表明提高组合准确率并非因为过拟合。定性分析也证明了使用MyCanvas数据集可以显著提高现有个性化模型的生成质量。

总之，这项研究提出了一种新的方法来创建多概念个性化图像，并通过创建新的数据集和评估指标来证明其有效性。这不仅推动了个性化图像生成技术的发展，也为未来的研究提供了新的工具和基准。