深度解读快手可图大模型的技术演进与应用探索

2,126 0 0

文章摘要

李岩，快手可图大模型团队负责人，在2024 AICon全球人工智能开发与应用大会上分享了可图大模型的研发进展和技术创新。可图大模型旨在成为最能理解中文的文生图大模型，具备语义理解、摄影级画面质感生成和多条件控制生成三大核心特点。在智源组织的人工评测中，可图在中文和英文场景下均表现优异，仅次于OpenAI的DALL-E 3。

可图大模型已于7月6日开源，官网、Github项目、Hugging Face模型和技术分析报告均已对外公布。开源后，可图在国际和国内均获得广泛关注和积极反响，GitHub上获得超过3000个星标，Hugging Face下载量超过5万次。社区对可图的插件生态提出改进意见，官方和个人开发者正在努力完善。

李岩还分享了可图开源的决策思考，强调开源是回馈社区、支持行业发展的重要方式，也是公司的技术名片。开源有助于吸引技术人才，推动社区发展。

技术讨论部分，李岩探讨了文生图领域选择合适的文本表征器的重要性，分析了CLIP、Encoder-Decoder结构和Decoder-only结构的优缺点，并介绍了可图采用的General Language Model框架。他还分享了五个原则指导文本表征选择，并讨论了RLHF在文生图模型中的关键因素，即构建拟合人类偏好的奖励模型。

此外，李岩还介绍了可图在中文书写能力上的挑战和进展，提出了“随便写写”和“认真写写”两种场景，并分享了实现高质量中文书写的技术框架。在虚拟试穿技术方面，他讨论了AIGC模特和真实模特的应用，以及衣服的分类和虚拟试穿的技术要求和难点。

最后，李岩对视觉生成领域的未来进行了展望，强调可控性将成为行业发展的主旋律，包括输出效果、身份、风格、安全性和文本相关性的可控。他期待可图大模型在开源道路上继续为社区带来惊喜，共同推动视觉生成技术的发展。