西湖大学王东林团队论文：机器人需要“通古今，知未来”丨CVPR 2026

68 0 0

文章摘要

该研究提出HiF-VLA——一种以运动信息为核心建模时间的视觉-语言-动作模型，旨在解决机器人在长序列任务中因缺乏时间理解能力而导致的动作重复、决策中断等核心问题。传统视觉语言行动模型仅依赖当前观测做决策，在多步骤任务中常出现动作不连贯和“遗忘”现象，根本症结在于缺乏对时空演化的模拟能力。HiF-VLA突破性地将“运动”作为时间信息的核心表达形式，使模型可同时建模过去变化、当前状态与未来趋势，从而实现更稳定的连续决策。其核心创新在于避免堆叠历史图像或预测未来画面等低效方式，而是利用运动信号替代静态图像，提升时间表征的效率与有效性。

实验表明，在LIBERO-Long长序列任务上，HiF-VLA单视角成功率达94.4%、多视角达96.4%，分别比基线OpenVLA-OFT高3.4和2.4个百分点；10个具体任务中多个达到100%成功率，最低也达76%，体现显著的稳定性优势。更重要的是，其性能提升并非依赖多视角输入，反而在单视角下已接近甚至超越其他方法的多视角表现，有力证明了时间建模能力是核心驱动因素。在CALVIN跨环境泛化任务中，该模型在D环境中平均能完成4.35个连续步骤，超越所有基线方法，凸显其长期规划与鲁棒性。在真实机器人实验中，按按钮任务成功率由17.4%提升至34.2%，覆盖与堆叠任务从33.3%升至57.9%，验证了模型在现实复杂场景中的决策能力增强。尤其在状态细微变化（如按钮是否按下）的场景中，模型借助运动信息判断阶段转变，克服了纯视觉感知的局限。

对比实验显示，历史帧堆叠虽提供信息却大幅增加计算成本（延迟达基线3.15倍），而图像未来预测则引入误差并导致稳定性下降。相比之下，仅用运动信息建模时间的方式在提升成功率的同时，仅带来约1.5倍的轻量延迟增长，显著优于其他方案。时序长度分析进一步表明，最优历史窗口为8步，过短则信息不足，过长则产生冗余干扰，而该模型延迟随长度扩展仍保持高度稳定，展现出良好的横向扩展能力。消融实验证实，将历史信息注入决策模块而非直接接入视觉语言模型，能使其效果更优，说明时间信息应适配决策逻辑，而非强行嵌入感知层。

本研究标志着机器人决策范式的演进——从“看到即做”的反应式系统转向“边想边做”的推理式系统。模型不仅能记住已完成的动作，还能判断自身所处阶段并预测下一步行为，真正具备理解连续流程的能力。这一转变意味着具身智能正从“感知驱动的反应系统”，向“时间驱动的推理系统”跃迁，为机器人在复杂动态环境中持续稳定运行奠定关键基础。研究团队来自西湖大学与阿里巴巴达摩院联合攻关，项目负责人王东林长期深耕机器人学习与智能决策领域，黄思腾则专注于具身智能与多模态高效建模，两者合力推动前沿理论走向实际应用落地。