对话地平线前高管牛建伟：万亿参数大模型如何重塑具身智能

478 0 0

文章摘要

具身智能赛道目前分裂为视觉语言动作端到端、智驾降维及大模型派系。尽管资本疯狂押注，行业共识尚未形成。地平线前智能座舱产品线总经理牛建伟率领团队进军该领域，明确提出视觉语言动作端到端方案是弯路，真正的答案在于构建物理世界的通用大脑。这一观点代表了大模型派对当前主流技术路线的挑戰。

牛建伟指出大语言模型本质是文本概率生成器，而非数值计算器，将其直接映射为连续空间动作存在模态错配。经典例证显示模型难以准确进行数值计算，视觉语言动作方案正在用大模型最不擅长的范式解决运动控制问题。该方案模型参数通常较小，难以遵循缩放定律，且与本体绑定过深，缺乏有效的反馈和记忆机制，导致泛化能力不足，无法像人类一样通过理解举一反三。

新方案采用分层架构，上层为万亿参数的空间智能大模型负责任务规划与推理，下层为视觉驱动动作的小模型负责执行。大模型负责任务规划，知道为什么要拿杯子，小模型负责执行，知道怎么拿。这种设计解耦了认知与执行，利用大模型擅长的逻辑推理能力，并通过预训练海量弱标注三维数据与后训练精标数据相结合，实现智能涌现。物理世界的复杂度不比数字世界低，理解三维空间关系需要万亿参数量级支持。

特斯拉与谷歌均采用万亿参数大模型作为大脑的完整方案，国内部分企业仅学习了本体而忽视大脑构建。目前团队已在机器人上跑通物理代理架构，可通过对话交互修正任务并积累技能。机器人不仅知道如何做一个任务，还能够实时监督和反馈任务完成的情况，并通过记忆和反思的能力，实现任务越做越好。团队坚信通用方案能持续提升智能，不愿在特定场景堆砌数据，愿等待技术逻辑验证。相比端到端单点方案，具身智能是通用问题，需站在空间智能角度解决。