文章摘要
腾讯混元3D数字人团队近期开源了HY-Motion 1.0系统,这是业界首个将DiT架构扩展至十亿参数量级的3D动作生成模型。该系统通过独创的三阶段训练范式与精细的数据工程,在指令跟随能力和动作质量上显著超越现有开源基准,解决了传统文本生成3D动作领域存在的模型规模小、指令理解弱、动作滑步抖动等问题。模型采用类似HunyuanVideo的流匹配架构,不仅能生成基础动作,更能精准执行复杂组合指令,为游戏开发、VR/AR交互和数字人产业提供了工业级开源解决方案。
高质量数据是模型性能的核心保障。研究团队构建了涵盖1200万视频片段、动捕数据及3D动画资产的完整数据管线,经过严格的标准化处理和过滤机制,最终汇总约500小时高质量数据。所有动作数据被统一重定向至标准骨架上,并通过人工校验与LLM标准化构建层级化分类体系,覆盖200多个细分类别。这种精细的数据工程为模型提供了丰富的语义理解基础。
模型架构设计上,HY-Motion 1.0采用基于DiT的流匹配模型,创新性地融合双流与单流处理模块。通过联合注意力机制实现动作特征与文本语义的深度交互,并引入Qwen3-8B作为文本编码器增强理解能力。非对称注意力掩码和滑动窗口注意力机制的设计,既保护了文本语义完整性,又符合人体运动连续性规律。专门的持续时间预测与提示词改写模块,进一步提升了用户指令的转化效率。
训练策略采用三阶段渐进式优化:大规模预训练阶段建立广泛动作先验,高质量微调阶段提纯输出分布,强化学习阶段通过DPO和Flow-GRPO算法实现人类偏好与物理约束的平衡。实验显示该策略使模型实现了从“大致正确”到“精确平滑”的质的飞跃,在SSAE评分中达到78.6%,显著优于同类模型。缩放实验揭示数据规模与质量对模型性能的不同影响,为后续优化指明方向。
尽管在复杂长指令和物体交互场景仍有提升空间,HY-Motion 1.0通过系统性创新验证了动作生成领域同样遵循缩放定律,为高交互性、高物理精度的下一代动作生成技术奠定了坚实基础。其开源策略将加速3D内容创作从手工制作向生成式AI的范式转移,推动数字人产业的规模化应用。
原文和模型
【原文链接】 阅读原文 [ 2448字 | 10分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



