Yann LeCun离开Meta后首篇论文?使用了宇树机器人做研究
文章摘要
【关 键 词】 机器人、脑机接口、动作模仿、强化学习、视频生成
伯克利、纽约大学和约翰・开普勒林茨大学的研究团队提出了一种名为GenMimic的新方法,使机器人能够通过观看AI生成的视频学习并复现人类动作。这一突破性技术让人联想到《黑客帝国》中Neo通过脑机接口瞬间学会功夫的场景。研究人员开发了一个通用框架,使人形机器人能够零样本执行生成视频中的动作,即便视频中存在噪声或变形,机器人也能准确提取核心动作逻辑。
GenMimic的核心贡献包括提出首个从生成视频到机器人动作的通用框架,以及开发了一种新的强化学习策略。该策略使用对称正则化和选择性加权的3D关键点奖励进行训练,能够在现有动作捕捉数据上训练,并泛化到充满噪声的合成视频。此外,研究团队还创建了GenMimicBench数据集,包含428个由Wan2.1和Cosmos-Predict2生成的合成人类动作视频,用于评估零样本泛化和策略鲁棒性。
GenMimic采用两阶段流程实现从视频到机器人动作的转换。第一阶段通过4D重建将视频中的像素信息转化为机器人可理解的3D关键点;第二阶段将这些关键点转化为物理上可执行的动作。研究团队特别设计了加权跟踪奖励机制,使策略能够优先关注任务相关的关键点,如末端执行器,同时忽略不准确的下半身动作。此外,通过引入对称损失,策略能够更好地处理视频中的噪声。
实验结果表明,GenMimic在仿真和真实环境中均表现出色。在仿真测试中,该方法在成功率(SR)和关键点误差(MPKPE)等指标上优于现有基线模型。在真实世界的23-DoF宇树G1机器人上,GenMimic成功复现了43个动作,包括挥手、指向和伸展等上半身动作。然而,涉及下半身的复杂动作组合仍存在挑战,研究人员认为这可能源于不准确或物理上不可行的动作线索。
这项研究标志着机器人学习领域的重要进展,为未来实现更自然的人机交互奠定了基础。通过利用生成视频作为训练数据,该方法有望大幅降低机器人学习新动作的成本和难度。值得注意的是,图灵奖得主Yann LeCun作为共同导师参与了这项研究,这也是他离开Meta后发表的首篇论文。
原文和模型
【原文链接】 阅读原文 [ 2714字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




