对话地平线前高管牛建伟:万亿参数大模型如何重塑具身智能

AIGC动态2小时前发布 aitechtalk
71 0 0
对话地平线前高管牛建伟:万亿参数大模型如何重塑具身智能

 

文章摘要


【关 键 词】 具身智能大模型派技术路线牛建伟空间智能

具身智能赛道目前分裂为视觉语言动作端到端、智驾降维及大模型派系。尽管资本疯狂押注,行业共识尚未形成。地平线前智能座舱产品线总经理牛建伟率领团队进军该领域,明确提出视觉语言动作端到端方案是弯路,真正的答案在于构建物理世界的通用大脑。这一观点代表了大模型派对当前主流技术路线的挑戰。

牛建伟指出大语言模型本质是文本概率生成器,而非数值计算器,将其直接映射为连续空间动作存在模态错配。经典例证显示模型难以准确进行数值计算,视觉语言动作方案正在用大模型最不擅长的范式解决运动控制问题。该方案模型参数通常较小,难以遵循缩放定律,且与本体绑定过深,缺乏有效的反馈和记忆机制,导致泛化能力不足,无法像人类一样通过理解举一反三。

新方案采用分层架构,上层为万亿参数的空间智能大模型负责任务规划与推理,下层为视觉驱动动作的小模型负责执行。大模型负责任务规划,知道为什么要拿杯子,小模型负责执行,知道怎么拿。这种设计解耦了认知与执行,利用大模型擅长的逻辑推理能力,并通过预训练海量弱标注三维数据与后训练精标数据相结合,实现智能涌现。物理世界的复杂度不比数字世界低,理解三维空间关系需要万亿参数量级支持。

特斯拉与谷歌均采用万亿参数大模型作为大脑的完整方案,国内部分企业仅学习了本体而忽视大脑构建。目前团队已在机器人上跑通物理代理架构,可通过对话交互修正任务并积累技能。机器人不仅知道如何做一个任务,还能够实时监督和反馈任务完成的情况,并通过记忆和反思的能力,实现任务越做越好。团队坚信通用方案能持续提升智能,不愿在特定场景堆砌数据,愿等待技术逻辑验证。相比端到端单点方案,具身智能是通用问题,需站在空间智能角度解决。

原文和模型


【原文链接】 阅读原文 [ 5247字 | 21分钟 ]
【原文作者】 AI科技评论
【摘要模型】 qwen3.5-397b-a17b
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...