「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?|GAIR 2025
文章摘要
【关 键 词】 具身智能、世界模型、空间智能、自动驾驶、无人机
在第八届GAIR全球人工智能与机器人大会的圆桌讨论中,三位学者围绕具身智能、世界模型和空间智能等前沿议题展开深度对话。具身智能的技术路线尚未收敛,仍处于探索阶段,高飞认为这波热潮的核心期待在于AI与本体结合带来的智能飞跃,但需警惕领域最终回归工业自动化的风险。金鑫强调高校应聚焦交互、人机协同等核心问题突破,而王靖博更关注软硬件协同设计对产业化的推动作用。
关于世界模型在自动驾驶中的应用,金鑫指出生成式AI能力的提升使得仿真数据达到真假难辨的程度,特斯拉等企业通过闭环测试优化决策链路。但世界模型的定义尚未统一,李飞飞与LeCun在表征方式上存在分歧——前者强调像素级重建,后者主张潜在空间表达。在具身智能领域,世界模型与视觉语言动作(VLA)的结合有望解决长程任务预测难题,但现有方案距通用智能仍有差距。
空间智能的讨论揭示了技术演进的连续性。高飞指出SLAM技术正与learning-based方法融合,形成对空间几何、纹理等信息的更高级表征。王靖博发现语义信息的关注度显著提升,而金鑫认为复杂空间关系描述仍是当前机器人的薄弱环节。多模态数据的补充(如深度信息)和专用数据集的构建成为突破方向。
在商业化层面,三位学者呈现了理想与现实的张力。无人机领域99%的空中作业场景尚未开发,高飞指出智能不足是最大瓶颈,AI驱动的决策能力将拓展应用边界。金鑫观察到工业自动化需求与技术创新存在鸿沟,而王靖博坦言人形机器人的硬件迭代仍面临负载能力、运动稳定性等挑战。关于中美估值体系差异,高飞强调”做好中国路径”的务实态度,金鑫则认为资本热度与技术创新需辩证看待。
数据获取策略的讨论呈现多元化视角。合成数据与真机数据的价值取决于具体任务需求,金鑫提出数据金字塔分层理论,王靖博以足式控制为例说明某些任务可完全依赖仿真环境。视频生成模型虽能提高数据相似度,但模态选择应服务于任务本质。这场对话揭示了技术发展中的关键矛盾:通用智能的远大理想与行业落地的现实约束,而突破点可能存在于跨领域的技术融合与任务导向的创新路径中。
原文和模型
【原文链接】 阅读原文 [ 7430字 | 30分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




