计算所 x 上交大论文：只用双人数据，也能生成多人动画丨CVPR 2026

54 0 0

文章摘要

MultiAnimate是一种面向多人物姿态驱动动画生成的新型框架，核心目标是解决在复杂互动场景中人物身份混淆、动作错位及空间关系失真的问题。该方法通过引入人物身份标识机制与基于掩码的空间关系建模，使模型在生成过程中能持续区分不同个体并维持外观与动作的一致性。关键创新在于：身份标识模块（Identifier Assigner与Adapter）为每位人物分配唯一编码，确保身份不随动作变化而交换；同时，人物掩码（mask）用于显式建模像素级归属关系，辅助模型理解遮挡与相对位置等空间交互。

实验验证采用三类数据：Swing Dance（双人舞蹈，30小时，含频繁旋转与遮挡）、Gen-dataset（2079个自动生成的2–3人视频，背景与动作多样），以及未参与训练的TikTok社交媒体视频（3–7人舞蹈）。模型训练分两阶段：第一阶段仅用Swing Dance训练约7000步，支持至三人生成；第二阶段加入Gen-dataset微调，进一步提升环境泛化能力；另有一扩展版模型经24轮训练后可处理最多七人场景，且全程仅依赖双人训练数据。消融实验证实，移除身份标识或掩码驱动设计会导致显著的身份混乱与空间错误，表明二者对稳定性至关重要。

在Swing Dance测试中，MultiAnimate生成视频在视觉真实感、姿态一致性、帧间连续性及身份保持方面均优于MimicMotion、DisPose、UniAnimate-DiT与VACE等基线方法；尤其在旋转、交换位置与身体接触等高难度交互中，避免了衣服误换、肢体错位及背景抖动等问题。在Gen-dataset上，尽管未见该数据训练，模型仍表现出良好动作控制与时间连续性，仅在极复杂背景下指标略有下降。最突出的是其强泛化能力：面对完全未见的三人至七人TikTok视频，模型仍能准确区分个体、维持各自外观，并正确还原人物间空间构型。这说明训练人数与推理人数解耦，仅需双人数据即可支撑更复杂场景的生成，大幅降低数据采集成本。整体而言，该工作在提升多人物生成稳定性的同时，实现了高效的数据利用与模型扩展性，为可控视频生成提供了新路径。