「被动感知」到「理解接触」！它石智航重磅发布OmniVTA视触觉世界模型

47 0 0

文章摘要

本研究由它石智航联合新加坡国立大学、复旦大学、中科院自动化所、清华大学、中关村学院及北京航空航天大学等六大机构共同推进，旨在破解机器人在接触操作中“感知更多、做得更差”的技术困局。核心问题在于：尽管触觉传感器已广泛应用，但现有方法仍存在根本性缺陷——过度依赖视觉与触觉特征简单拼接，忽视触觉信号的局部性、事件驱动性与动态演化本质。触觉信号高度局部且由接触事件驱动，无法提供全局感知，难以支撑长时序规划；而接触本身是一个随时间演变的动态过程，现有方法缺乏对这一演化的显式建模。

研究团队提出以“预测+反馈”协同机制为理论基础的新路径，该机制受人类神经机制启发，强调通过前向模型提前预测感官变化，并利用实时反馈进行误差修正。为支撑该机制，项目首次发布OmniViTac大规模视触觉数据集，覆盖2万余条操作轨迹、近百类任务与百余种物体，系统化定义六类接触模式（擦拭、削皮、切割、抓取、装配、手内调整），并确保视觉、触觉与动作的高精度同步采集，该数据集获EAI-2025年度10大数据集奖项。

基于此，研究构建OmniVTA框架，其核心思路是实现从“被动感知”到“主动预测”的跃升。系统采用慢–快分层控制结构：慢系统依托世界模型预测未来触觉状态并生成动作序列，快系统则结合预测与实时触觉反馈实施高频反射控制。关键模块包括：TactileVAE用于将高频3D触觉形变压缩为低维潜变量表示，兼顾空间细节与时间动态；视触觉世界模型基于双流扩散架构，联合建模视觉与触觉的时序演化关系，可前瞻性预测接触趋势；自适应融合策略引入LTD编码器提取接触动态差异，并通过门控机制动态调整视觉与触觉权重；反射式触觉控制器以60Hz频率实时修正动作，弥补低频规划延迟，使系统具备类似人类的触觉反射能力。

实验验证显示，OmniVTA在不同物体、工具与扰动条件下展现出显著优于传统方法的鲁棒性与泛化能力，模型能够自适应调整多模态权重并迁移接触动态规律。研究证明机器人正逐步从“机械记忆”走向“理解接触”，初步具备人类式的预测与反馈协同能力。这一成果不仅拓展了具身智能的理论边界，也为精密装配、家居清洁、食材备制等现实场景提供了一条可落地、可泛化、可规模化的技术新路径。