「被动感知」到「理解接触」!它石智航重磅发布OmniVTA视触觉世界模型

AIGC动态2小时前发布 AIera
47 0 0
「被动感知」到「理解接触」!它石智航重磅发布OmniVTA视触觉世界模型

 

文章摘要


【关 键 词】 视触融合世界模型主动预测触觉数据闭环控制

本研究由它石智航联合新加坡国立大学、复旦大学、中科院自动化所、清华大学、中关村学院及北京航空航天大学等六大机构共同推进,旨在破解机器人在接触操作中“感知更多、做得更差”的技术困局。核心问题在于:尽管触觉传感器已广泛应用,但现有方法仍存在根本性缺陷——过度依赖视觉与触觉特征简单拼接,忽视触觉信号的局部性、事件驱动性与动态演化本质。触觉信号高度局部且由接触事件驱动,无法提供全局感知,难以支撑长时序规划;而接触本身是一个随时间演变的动态过程,现有方法缺乏对这一演化的显式建模

研究团队提出以“预测+反馈”协同机制为理论基础的新路径,该机制受人类神经机制启发,强调通过前向模型提前预测感官变化,并利用实时反馈进行误差修正。为支撑该机制,项目首次发布OmniViTac大规模视触觉数据集,覆盖2万余条操作轨迹、近百类任务与百余种物体,系统化定义六类接触模式(擦拭、削皮、切割、抓取、装配、手内调整),并确保视觉、触觉与动作的高精度同步采集,该数据集获EAI-2025年度10大数据集奖项

基于此,研究构建OmniVTA框架,其核心思路是实现从“被动感知”到“主动预测”的跃升。系统采用慢–快分层控制结构:慢系统依托世界模型预测未来触觉状态并生成动作序列,快系统则结合预测与实时触觉反馈实施高频反射控制。关键模块包括:TactileVAE用于将高频3D触觉形变压缩为低维潜变量表示,兼顾空间细节与时间动态;视触觉世界模型基于双流扩散架构,联合建模视觉与触觉的时序演化关系,可前瞻性预测接触趋势;自适应融合策略引入LTD编码器提取接触动态差异,并通过门控机制动态调整视觉与触觉权重;反射式触觉控制器以60Hz频率实时修正动作,弥补低频规划延迟,使系统具备类似人类的触觉反射能力。

实验验证显示,OmniVTA在不同物体、工具与扰动条件下展现出显著优于传统方法的鲁棒性与泛化能力,模型能够自适应调整多模态权重并迁移接触动态规律。研究证明机器人正逐步从“机械记忆”走向“理解接触”,初步具备人类式的预测与反馈协同能力。这一成果不仅拓展了具身智能的理论边界,也为精密装配、家居清洁、食材备制等现实场景提供了一条可落地、可泛化、可规模化的技术新路径。

原文和模型


【原文链接】 阅读原文 [ 2423字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...