李飞飞、Jim Fan、徐丹飞联手，给具身智能指了一条新路

51 0 0

文章摘要

在具身智能领域，一项针对机器人灵巧手的对照实验揭示了一个反常现象：将触觉信号作为额外信息输入经典模型后，任务成功率从17%骤降至6%。研究发现，导致这一结果的核心原因在于视觉与触觉的频率错配。视觉属于低频慢感知，而触觉是高频快感知，将两者强行输入同一低频运行的模型中，不仅无法发挥触觉优势，反而会干扰视觉表征。

为解决这一结构性矛盾，研究团队提出了T-Rex框架，其核心是混合Transformer专家架构。该架构不再让触觉和视觉共用算力通道，而是将其拆解为三个各司其职的专家模块。潜在专家处理视觉和语言信息进行全局预判；动作专家以较低频率生成动作草图；触觉专家则在接触瞬间以高频实时读取信号，对动作进行毫秒级精细修正。同时，研究引入了时空触觉编码器，将时序力数据转化为标准化的触觉语言，确保高频信号拥有独立通道。

在数据与训练方面，团队构建了涵盖多种物品与动作的100小时触觉同步数据集，并采用渐进式训练策略，先通过大规模人类视频预训练建立视觉运动先验，再利用机器人触觉数据进行跨模态对齐，最后用少量示范激活专项能力。

实验结果表明，T-Rex框架在12项对接触力要求极高的精细操作任务中，取得了超过30%的平均成功率提升。消融实验进一步证实，系统的成功源于为触觉赋予了独立的节奏与处理逻辑。

这项研究得出的关键结论是，“万物皆token”的通用大模型范式并不天然适用于所有感知模态。视觉和语言适合作为慢变量进行全局推理，而触觉作为快变量需要单独的高频闭环控制回路。触觉不应是视觉的附庸，而应成为一条独立的物理感知通道，这标志着机器人正从单纯“看见世界”向真正“感知世界”迈进。