弯道超车？国产具身，千小时人类数据激发智能涌现

AIGC动态2小时前发布 almosthuman2014

50 0 0

文章摘要

当前具身智能领域，硅谷多家头部科技企业已形成新的行业共识：提升机器人灵巧性与泛化能力的核心，是堆积更多人类第一视角数据而非机器人真机数据。这些企业的核心判断为真正的机器人智能始于对「物理常识」的理解，人类第一视角数据蕴含天然丰富的物理交互常识，是习得物理常识的优质材料，脱离物理常识训练的具身模型只会陷入轨迹拟合死胡同，难以实现泛化。目前国内具身智能领域仍在争论真机数据与仿真数据的有效性，行业主流沿用拟合机器人轨迹的VLA路线，该路线在基座模型物理智能水平不足的前提下，存在数据效率低下、泛化上限低的问题，还会破坏大模型原有的通用理解能力，引发灾难性遗忘，导致长程规划与推理能力大幅衰减。

深度机智是国内率先独立洞察到该方向、抢滩布局人类第一视角数据赛道的企业，创始团队早在2024年底就预判到该赛道的发展潜力，提出底层逻辑完全不同的技术路线：要做的不是「通用具身智能」，而是「具身通用智能」，核心技术策略为「Understanding first, action next（先理解，后执行）」。这一语序调换并非文字游戏，而是训练逻辑的彻底重构，该理念认为智能是原生的，具身只是智能在三维物理世界的表现形式，机器人需先理解物理世界运作规律、具备通用能力，再落地执行任务。

依托涵盖数据、架构、算法的全栈技术矩阵，深度机智在多个国际基准测试中取得SOTA成绩，融合三层创新的即将发布的PhysBrain1.0，在多项测试中超越行业标杆达二十余个百分点，同时具备业界少见的跨本体泛化能力，已具备真实场景落地潜力，相关成果将于中关村论坛正式亮相并开源。该路线验证了先习得物理常识再执行任务的可行性，实现了数据效率的数量级提升，打造了成本更优、规模化门槛清晰的发展路径，若后续百万小时级别数据训练能验证物理常识的Scaling Law，具身智能的发展拐点可能早于预期到来。