中山大学王广润:大模型的微调只是对空间建模的微调 | GAIR 2025
文章摘要
【关 键 词】 AI技术、物理建模、具身智能、端到端、机器人控制
王广润博士在GAIR 2025大会的演讲聚焦于基础模型与物理世界建模的前沿探索。他指出,真实世界的动态性和复杂性要求AI不仅具备感知能力,还需理解物理规律并预判场景变化。这一背景下,物理空间智能被视为未来“物理世界操作系统”的核心,其理想状态应能通过类似清洁房间的“物理图灵测试”,但目前技术仍存在显著差距。
演讲重点探讨了端到端物理模型的实现路径。传统分层模型将感知、规划与执行割裂,而端到端系统通过黑箱式整合实现多模态输入(图像、文本)到动作输出的直接映射。这种范式虽在机器人、航天和自动驾驶领域潜力巨大,但面临数据需求庞大和训练困难的挑战。王博士团队提出创新性的“原位推理离散扩散模型”,直接在离散信号(如one-hot编码)上加噪去噪,相比主流基于掩码的方法,在文本生成任务中展现出更优的稳定性和生成质量。
在模型层面,E0具身大模型突破了现有VLA模型的三大瓶颈:通过新型扩散架构实现高分辨率动作控制,采用球面视角增强空间建模,并统一离散与连续建模范式。实验显示,该模型在LIBERO、ManiSkill等数据集上表现优异,尤其在插插座、叠方块等精细操作任务中显著优于基线模型。真机测试进一步验证其泛化能力——仅需单样本微调视觉模块极小参数,即可适应全新环境,这一发现为机器人快速部署提供了新思路。
物理世界推理的独特性被特别强调。与语言模型依赖文本分析不同,物理动作决策需基于视频级空间推理。团队提出的解耦框架将物理建模与空间建模分离,使得环境适配仅需调整少量参数,大幅提升效率。最后,针对行业评测标准缺失的问题,团队搭建了开放的真机测评平台,支持远程调用实验室机器人进行公平评估,推动具身智能研究的标准化进程。
整场演讲贯穿“框架-模型-基准”三重创新:全局迭代生成架构突破自回归局限,E0模型实现精细控制与快速适配,测评平台解决行业痛点。这些进展共同指向一个目标:让AI系统像人类一样,在动态物理世界中实现感知-推理-行动的闭环。
原文和模型
【原文链接】 阅读原文 [ 5525字 | 23分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




