中山大学与联想团队发布 ConsistentID,单张照片即可成为百变超人

中山大学与联想团队发布 ConsistentID,单张照片即可成为百变超人

 

文章摘要


【关 键 词】 图像生成个性化肖像面部一致性技术挑战ConsistentID

图像生成技术的最新进展,特别是基于扩散的文本到图像模型,已经极大地推动了个性化和定制化肖像生成的发展。这些技术在电子商务广告、个性化礼物定制和虚拟试穿等领域具有广泛的应用潜力。然而,这些模型在保持面部图像的身份一致性和生成高保真、多样化面部细节方面仍然面临挑战。

中山大学与联想团队合作,发布了ConsistentID,这是一个新的面部生成模型,它通过重构50万的多模态细粒度ID数据集来训练,支持个性化写真、性别/年龄更改和身份混淆等功能。ConsistentID的方法在眼睛、鼻子和嘴巴等面部特征中表现出卓越的身份一致性。

ConsistentID框架包括两个关键模块:多模态面部ID生成器和ID保存网络。多模态面部提示生成器由细粒度多模态特征提取器和面部ID特征提取器组成,专注于捕获详细的面部信息。ID保存网络则利用面部文本和视觉提示,通过面部注意力定位策略防止不同面部区域的ID信息混合,确保面部区域ID一致性的保存。

ConsistentID还引入了测量细粒度ID保存(FGID)数据集和细粒度的身份一致性度量,提供了一种独特而全面的评估方法来增强ConsistentID在面部细节中的训练和性能评估。

在评估方面,ConsistentID与现有的先进方法进行了比较,包括Fastcomposer、IP-Adapter、Photomaker和InstantID。结果表明,ConsistentID在使用单个参考图像进行个性化生成时,展现了更强大的能力,包括高质量生成、灵活的可编辑性和强大的身份保真度。定量评估也显示ConsistentID在多数评估指标中优于其他方法,并且在生成效率方面超过了其他基于IP-Adapter的方法。

未来工作方面,团队计划训练一个更大规模的ConsistentID模型,以提高其泛化能力和出图质感。此外,正在开发的ConsistentID模型将引入多ID训练方式,允许用户同时输入多张图片来引导出图的变化,并对模型结构进行调整以确保ID特征和控制信息的充分解耦。代码和最新进展将同步更新在GitHub仓库中。

原文和模型


【原文链接】 阅读原文 [ 2293字 | 10分钟 ]
【原文作者】 AI科技评论
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...