对话它石智航丁文超:具身智能,如何迈进「2.0时代」?丨ICRA 2026
文章摘要
【关 键 词】 具身智能、基座模型、数据飞轮、末端执行、商业落地
具身智能正经历从1.0时代向2.0时代的关键跨越,这一过程的核心在于技术范式的根本性改变。具身智能进入2.0时代的核心标志是以人为中心的数据范式爆发,以及以世界动作模型为核心的模型范式爆发。企业需要坚持第一性原理思考并具备极强的工程化能力,从而突破单一技术长板的局限,构建涵盖数据采集、模型训练到物理执行的全栈能力。
在模型与数据层面,简单的模型架构更易于规模化并消化多模态数据。若具身智能存在规模法则,必然是由贯穿语言、视觉、动作三种模态的原生基座模型涌现出来的。同时,低质量的纯视觉数据无法支撑通用模型的发展,高质量的场景化数据才是未来竞争的核心,而非单纯追求数据总量。通过自研高精度数采设备获取以人为中心的高质量数据,并结合3D隐空间建模,能够有效解决世界模型的幻觉问题,提升空间感知与动作策略的可靠性。
在硬件执行与感知方面,末端执行器需要与智能模型深度融合。优秀的灵巧手必须具备手脑一体特质,通过高自由度设计与模型感知决策形成闭环,从而满足复杂物理世界的部署需求。此外,视触觉世界模型的引入将系统从被动修正升级为主动预判,利用触觉的高频反馈特性,大幅提升了柔性物体操作和精细任务的成功率。
在商业化落地与行业演进方面,企业需聚焦高门槛、大需求的长程连续任务,以形成技术迭代与商业回报的良性循环。阻碍具身智能商业化落地的最大瓶颈在于模型的泛化性和吞吐率,这直接决定了机器人能否替代人工产生实际生产力。未来机器人的零样本与少样本操作能力将取得重大突破,行业竞争格局将加速两极分化,并最终向在多个细分任务上超越人类的3.0时代迈进。
原文和模型
【原文链接】 阅读原文 [ 7233字 | 29分钟 ]
【原文作者】 雷峰网
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★★



