智源清华带来PAM，手物交互数据生成新SOTA | CVPR 2026

69 0 0

文章摘要

【关键词】 Pose-Appearance-Motion、Sim-to-Real、高保真视频、手物交互、数据增强

本研究提出PAM（Pose-Appearance-Motion）框架，旨在解决仅依赖初始/目标手部姿态与物体几何信息即可生成高质量手物交互视频的难题。当前主流方法在姿态合成、外观生成或运动建模上存在明显局限：纯姿态合成缺乏视觉真实感；单图外观生成缺失时间连贯性；视频生成则高度依赖完整姿态序列和真实首帧，难以适用于模拟器到真实世界的迁移场景。PAM通过解耦姿态、外观与运动三要素构建统一生成引擎，首次实现了仅需起始与终止状态条件输入下的高保真HOI视频生成，并显著提升下游任务性能。

PAM方法分为三个阶段：首先在姿态生成阶段利用预训练模型插值生成物理一致的中间姿态轨迹；其次在外观生成阶段引入深度图、语义掩码与手部关键点作为多模态引导，通过融合机制驱动Flux可控扩散模型生成逼真首帧；最后在运动生成阶段基于生成首帧与对应空间条件，调用CogVideoX风格的视频扩散模型完成时空连贯视频输出。该过程无需真实首帧和完整姿态序列输入，有效缓解了模拟器到真实世界的数据鸿沟。

实验在DexYCB与OAKINK2两个数据集上进行对比验证，PAM在FVD（29.13 vs 38.83）、MPJPE（19.37 mm vs 30.05 mm）、SSIM及MF等指标上全面领先现有SOTA方法；其可稳定生成480×720分辨率高清视频，优于基线模型常见的低分辨率模糊结果。消融研究表明，三类条件缺一不可：单独使用关键点会降低整体外观质量，而仅靠深度或语义图则易引发姿态失真，多模态联合控制确保结构细节准确且物理合理。

在Sim-to-Real应用方面，PAM能从极简输入中灵活合成多样背景与主体的逼真交互视频，展现出强大泛化能力。进一步下游验证中，将其生成的3,400个视频序列（共207,400帧）用于手部姿态估计的数据增强，仅用50%真实数据配合PAM合成数据即可达到使用100%真实数据的性能水平，有力证明了合成数据对减少标注需求与提升模型鲁棒性的实际价值。

综上，PAM以创新架构打破传统瓶颈，在视觉保真度、几何准确性及下游任务增益等方面均取得突破，为具身智能领域提供了可扩展、可迁移的生成式解决方案。