微软推出VASA-1：可生成会说话的，动态人物视频

AIGC动态2年前 (2024)发布 AIGCOPEN

3,410 0 0

文章摘要

本文介绍了微软亚洲研究院推出的VASA-1，这是一个能够通过输入一张图片和一段音频生成表情丰富、细节逼真的动态人物视频的模型。根据演示效果，VASA-1能够以45fps生成512×512分辨率的视频帧，在在线流媒体环境中支持高达40fps的帧率，延迟仅为170ms，且只需一张英伟达的4090 GPU即可实现高效性能。这一技术在人物视频合成领域引起了广泛关注，与此类似的还有阿里巴巴的EMO、清华大学等联合开源的EMAGE、华为、腾讯的AniPortrait以及谷歌的VLOGGER模型。这些技术的应用包括数字人主播，比如“AI刘强东”在直播带货中取得了成功，销售额甚至超过了一些头部真人大主播。

VASA-1在构建面部潜在空间方面采用了一种新方法，将面部动态和头部运动综合建模为一个单一的潜在变量，通过视频数据训练了一个表达丰富且解耦的面部潜在空间，从而能够以更低的资源消耗捕捉到人类面部的细微表情和头部动作，生成逼真、表情丰富的动态人物视频。为了实现这一目标，VASA-1使用基于3D的辅助表示和一系列损失函数进行自监督或弱监督训练，学习到高度解耦和表达性的面部潜在表示，提供有效的控制。此外，VASA-1还能接受一组可选的控制信号，如脸部凝视方向、头部到相机的距离，以满足特定业务场景需求，如直播带货、博物馆讲解等。

另外，VASA-1还实现了音频驱动的面部生成，通过扩散模型从输入的音频中提取特征，包括音高、音量、语调等，然后使用扩散变换器生成面部动态的潜在代码。通过将额外的条件信号与音频特征一起输入到扩散变换器中，再结合面部解码器，VASA-1能够渲染出与音频同步的实时人物说话视频。在综合测试中，VASA-1在音频-唇部同步分数上表现最佳，SC和SD分数高于其他模型，接近真实视频的表现。这些技术的发展为人物视频合成领域带来了新的可能性，为各种应用场景提供了更加逼真、高效的解决方案。