华为、腾讯开源AniPortrait：用音频、图片生成会说话的视频

AIGC动态2年前 (2024)发布 AIGCOPEN

3,993 0 0

文章摘要

【关键词】 AI视频生成、面部网格预测、音频同步、开源模型、AIGC创新

华为和腾讯的研究人员联合开发了一种创新的视频模型AniPortrait，该模型能够通过音频和人物图片自动生成与音频同步的视频。

AniPortrait的核心框架分为两大块：Audio2Lmk音频提取模块和Lmk2Video视频生成模块。

AniPortrait的Audio2Lmk模块通过两个并行的小型网络学习3D面部网格序列和头部姿态序列。

在训练阶段，研究人员使用了内部采集的高质量演员语音和公开的人脸数据集HDTF，通过监督学习提升了从语音到3D面部表情和头部姿态的高精度映射。

Lmk2Video模块使用了目前在人物生成视频领域表现较好的模型AnimateAnyone，并对其进行了改良。

AniPortrait的开源地址为：https://github.com/Zejun-Yang/AniPortrait，论文地址为：https://arxiv.org/abs/2403.17694。与阿里集团发布的EMO模型和谷歌发布的VLOGGER相比，AniPortrait的优势在于其开源性，便于开发者和研究者进行进一步的研究和应用。

AniPortrait的发布为AIGC领域的专业社区带来了新的关注点，其在音频同步视频生成方面的创新技术有望推动大语言模型（LLM）的发展和应用落地。同时，AniPortrait的开源特性也将促进AIGC开发者生态的建设，为市场研究和技术创新提供更多可能性。