李飞飞 、 英伟达 Jim Fan 、徐丹飞三巨头联合重磅论文,改写灵巧手触觉赛道

AIGC动态2小时前发布 aitechtalk
33 0 0
李飞飞 、 英伟达 Jim Fan 、徐丹飞三巨头联合重磅论文,改写灵巧手触觉赛道

 

文章摘要


【关 键 词】 具身智能灵巧手触觉感知模型架构机器人

具身智能领域,灵巧手技术的发展迎来关键突破。过去的行业探索往往试图将触觉信息直接融入现有视觉模型中,但这反而导致机器人执行任务时的表现显著下降。针对这一瓶颈,最新研究提出了T-Rex框架,通过重新设计模型架构与数据处理方式,实现了触觉信号的高效利用。

为解决视觉与触觉信息处理中的冲突,T-Rex采用了Mixture-of-Transformers架构。该架构内部设有三个分工明确的专家系统,分别负责预测视觉状态、规划宏观运动以及专门处理高频触觉信号。其中,动作规划与触觉修正采用不同运行频率,触觉专家以更高频率实时调整手指动作,在不增加过多计算负担的前提下,确保灵巧手在接触物体瞬间的精准反馈。

在训练流程与数据处理方面,研究采取了三阶段递进的解耦策略。整个过程依次利用海量人类视频进行前期泛化预训练,引入带触觉信号的真实机器人数据进行中期对齐训练,最后通过少量特定任务示范完成后训练。此外,为让模型理解时间维度的物理接触变化,研究引入时序触觉编码器,将连续高频触觉信号压缩为离散词汇。同时,数据集以动作基元与物体类别组合,用少量高质量触觉数据替代海量缺乏物理接触细节的视觉视频,提升了信号密度与泛化能力。

真机实测表明,在处理翻书页、传递鸡蛋等视觉难以独立完成的密集接触任务时,该框架成功率比纯视觉基线模型高出近一倍,证明了触觉正确引入的必要性。研究将灵巧手触觉从硬件传感器配置转化为可通过算法学习的软件能力,确立触觉反应在精细操作中的核心地位,为机器人在精密装配等场景落地提供了可扩展范式。

原文和模型


【原文链接】 阅读原文 [ 4424字 | 18分钟 ]
【原文作者】 AI科技评论
【摘要模型】 qwen3.7-plus
【摘要评分】 ★★★★★

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...