弯道超车?国产具身,千小时人类数据激发智能涌现
文章摘要
【关 键 词】 具身智能、物理常识、深度机智、第一视角、泛化能力
当前具身智能领域,硅谷多家头部科技企业已形成新的行业共识:提升机器人灵巧性与泛化能力的核心,是堆积更多人类第一视角数据而非机器人真机数据。这些企业的核心判断为真正的机器人智能始于对「物理常识」的理解,人类第一视角数据蕴含天然丰富的物理交互常识,是习得物理常识的优质材料,脱离物理常识训练的具身模型只会陷入轨迹拟合死胡同,难以实现泛化。目前国内具身智能领域仍在争论真机数据与仿真数据的有效性,行业主流沿用拟合机器人轨迹的VLA路线,该路线在基座模型物理智能水平不足的前提下,存在数据效率低下、泛化上限低的问题,还会破坏大模型原有的通用理解能力,引发灾难性遗忘,导致长程规划与推理能力大幅衰减。
深度机智是国内率先独立洞察到该方向、抢滩布局人类第一视角数据赛道的企业,创始团队早在2024年底就预判到该赛道的发展潜力,提出底层逻辑完全不同的技术路线:要做的不是「通用具身智能」,而是「具身通用智能」,核心技术策略为「Understanding first, action next(先理解,后执行)」。这一语序调换并非文字游戏,而是训练逻辑的彻底重构,该理念认为智能是原生的,具身只是智能在三维物理世界的表现形式,机器人需先理解物理世界运作规律、具备通用能力,再落地执行任务。
依托涵盖数据、架构、算法的全栈技术矩阵,深度机智在多个国际基准测试中取得SOTA成绩,融合三层创新的即将发布的PhysBrain1.0,在多项测试中超越行业标杆达二十余个百分点,同时具备业界少见的跨本体泛化能力,已具备真实场景落地潜力,相关成果将于中关村论坛正式亮相并开源。该路线验证了先习得物理常识再执行任务的可行性,实现了数据效率的数量级提升,打造了成本更优、规模化门槛清晰的发展路径,若后续百万小时级别数据训练能验证物理常识的Scaling Law,具身智能的发展拐点可能早于预期到来。
原文和模型
【原文链接】 阅读原文 [ 5455字 | 22分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-seed-2-0-lite-260215
【摘要评分】 ★★★☆☆



