李飞飞、Jim Fan、徐丹飞联手,给具身智能指了一条新路

AIGC动态57分钟前发布 TMTPOSTAGI
51 0 0
李飞飞、Jim Fan、徐丹飞联手,给具身智能指了一条新路

 

文章摘要


【关 键 词】 具身智能触觉感知混合专家频率错配灵巧操作

具身智能领域,一项针对机器人灵巧手的对照实验揭示了一个反常现象:将触觉信号作为额外信息输入经典模型后,任务成功率从17%骤降至6%。研究发现,导致这一结果的核心原因在于视觉与触觉的频率错配。视觉属于低频慢感知,而触觉是高频快感知,将两者强行输入同一低频运行的模型中,不仅无法发挥触觉优势,反而会干扰视觉表征。

为解决这一结构性矛盾,研究团队提出了T-Rex框架,其核心是混合Transformer专家架构。该架构不再让触觉和视觉共用算力通道,而是将其拆解为三个各司其职的专家模块。潜在专家处理视觉和语言信息进行全局预判;动作专家以较低频率生成动作草图;触觉专家则在接触瞬间以高频实时读取信号,对动作进行毫秒级精细修正。同时,研究引入了时空触觉编码器,将时序力数据转化为标准化的触觉语言,确保高频信号拥有独立通道。

在数据与训练方面,团队构建了涵盖多种物品与动作的100小时触觉同步数据集,并采用渐进式训练策略,先通过大规模人类视频预训练建立视觉运动先验,再利用机器人触觉数据进行跨模态对齐,最后用少量示范激活专项能力。

实验结果表明,T-Rex框架在12项对接触力要求极高的精细操作任务中,取得了超过30%的平均成功率提升。消融实验进一步证实,系统的成功源于为触觉赋予了独立的节奏与处理逻辑。

这项研究得出的关键结论是,“万物皆token”的通用大模型范式并不天然适用于所有感知模态。视觉和语言适合作为慢变量进行全局推理,而触觉作为快变量需要单独的高频闭环控制回路。触觉不应是视觉的附庸,而应成为一条独立的物理感知通道,这标志着机器人正从单纯“看见世界”向真正“感知世界”迈进

原文和模型


【原文链接】 阅读原文 [ 2635字 | 11分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 qwen3.7-max-2026-05-20
【摘要评分】 ★★★★★

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...