GAIR 2025 世界模型分论坛:从通用感知到视频、物理世界模型的百家争鸣
文章摘要
【关 键 词】 具身智能、世界模型、三维技术、数字人重建、物理建模
在第八届GAIR全球人工智能与机器人大会的世界模型分论坛上,五位青年学者围绕具身智能和世界模型的前沿研究展开了深入探讨。浙江大学研究员彭思达提出,赋予机器人通用空间感知能力是具身智能发展的核心,其团队开发的相机定位、深度估计和物体运动估计技术,为机器人决策提供了关键支持。这些技术不仅能提升行为规划的准确性,还能通过记录人类日常行为生成训练数据,缓解当前具身智能领域的数据匮乏问题。团队创新的LoFTR模型和Pixel-Perfect-Depth方法,分别解决了图像匹配和深度估计中的“飞点”问题,而SpatialTracker则通过三维空间跟踪实现了更鲁棒的行为数据采集。
腾讯ARC Lab高级研究员胡文博聚焦于三维感知的视频世界模型,认为视频生成模型如Sora虽具备3D一致性,但仍需提升细节精度。他展示了团队在3D重建与生成结合上的探索,包括ViewCrafter和TrajectoryCrafter等工具,这些工具通过将3D点云信息注入视频扩散过程,实现了动态场景的交互式探索。胡文博特别强调了3D信息对构建世界模型“记忆机制”的重要性,其工作为虚拟世界的多智能体协同探索提供了新思路。
西湖大学助理教授修宇亮分享了数字人重建技术的三项突破。UP2You方案将传统数字人建模时间从4小时缩短至1.5分钟,通过将脏数据转化为多视角正交图片,显著提升了重建效率和质量。ETCH模型创新性地通过向量定义衣服与人体皮肤的关系,解决了穿衣人体建模的解剖学准确性问题。Human3R则实现了场景与人体姿态的实时动态重建,为交互应用奠定基础。修宇亮预测,未来数字人重建将逐步演变为对通用3D基础模型的微调任务。
中山大学王广润博士从物理建模角度出发,提出原位Tweedie离散扩散模型,解决了传统方法在语义表征稳定性上的不足。其团队开发的E0具身大模型在泛化能力和动作控制上表现突出,并通过物理与空间建模的解耦策略,构建了无人机化智能评测平台。王广润指出,物理世界建模的关键在于平衡数据驱动与推理计算的关系,其工作为AI从虚拟空间走向物理世界提供了技术闭环。
香港中文大学(深圳)韩晓光教授系统梳理了三维生成技术的发展脉络,指出当前视频生成技术对三维内容创作的冲击。他强调,三维技术在细节可控性、交互需求和可解释性方面具有不可替代的价值,尤其是在构建可信AI系统时,3D显式表征能有效增强人类安全感。圆桌讨论环节中,学者们一致认为世界模型的发展需硬件迭代与算法创新并重,并呼吁建立技术联盟以推动领域共识形成。多位嘉宾预测,3D跟踪技术和自监督学习将在未来三年取得重大突破,而数字人情绪价值的量化将成为新的研究焦点。
原文和模型
【原文链接】 阅读原文 [ 5439字 | 22分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




