旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包

AIGC动态2年前 (2024)发布 almosthuman2014

4,361 0 0

文章摘要

旷视科技近期推出了一款名为MegActor的开源AI人像视频生成框架，该框架允许用户通过输入一张静态肖像图片和一段视频，生成表情丰富、动作一致的AI人像视频。MegActor生成的视频长度取决于给定的驱动视频长度，其面部细节呈现自然，画质出色。与市场上其他AI视频模型不同，MegActor选择开源，供开发者社区使用。

MegActor的泛化性表现在能够将不同视频模型中的人物肖像和视频进行组合，生成表情生动的视频。与阿里EMO的官方案例相比，MegActor也能生成近似的结果。MegActor由旷视研究院开发，该院是旷视科技的研究机构，致力于通过基础创新突破AI技术边界，并实现技术到产品的快速转化。

MegActor的训练数据全部来自公开可获取的开源数据集，确保了实际效果的可复现性。它采用原始图像进行驱动，以捕捉细致的表情和运动信息，这与多数厂商使用的方法不同。MegActor由两个阶段构成：ReferenceNet用于提取参考图像特征，PoseGuider则负责将运动和表情信息迁移到参考图像上。

使用原始视频进行驱动虽然能带来丰富的表情细节和运动信息，但也存在身份泄露和无关信息干扰的挑战。MegActor通过条件扩散模型，引入合成数据生成框架减轻身份泄露问题，并分割参考图像的前景和背景，使用CLIP对背景细节进行编码，确保背景稳定性。

在数据训练方面，旷视研究院团队使用公开数据集进行了超过700小时的训练，并采用换脸和风格化方法生成合成数据，提高对大范围动作和夸张表情的模仿能力。通过这些新的模型框架和训练方法，MegActor实现了根据输入视频生成任意持续时间的模仿视频，支持各种驱动视频和画风，且生成的视频自然程度与音频生成方法相当。

目前，MegActor已经完全开源，供广大开发者和用户使用。相关的论文、代码和项目地址也已提供，以便感兴趣的从业者可以从头开始完整复现这些效果。