腾讯胡文博:引领 3D 视频世界模型新趋势丨GAIR 2025
文章摘要
【关 键 词】 人工智能、视频生成、三维感知、世界模型、技术突破
第八届GAIR全球人工智能与机器人大会将于2025年12月12-13日在深圳举办,聚焦大模型、算力变革和世界模型等前沿议题。腾讯ARC实验室高级研究员胡文博将出席“世界模型”分论坛,分享《迈向三维感知的视频世界模型》的研究成果。作为该领域的新锐学者,胡文博已在图形学与视觉领域发表20余篇论文,其研究推动着AI从2D生成向3D理解的跨越。
胡文博的学术生涯始于香港中文大学计算机博士学位,期间曾在大疆、阿里巴巴达摩院等企业实习。2022年加入字节跳动PICO团队期间,他提出的《Tri-MipRF》论文实现神经辐射场的即时重建与抗锯齿渲染,入围ICCV最佳论文决赛并获CVPR研讨会奖项。该技术通过三向Mipmap编码,在保持效率的同时将模型体积缩减25%,解决了NeRF领域质量与效率难以兼顾的困境。
在腾讯任职期间,胡文博专注于视频世界模型的创新突破。其“滚动强制”技术通过联合去噪方案、注意力汇聚机制和高效训练算法,首次实现单块GPU实时生成长达数分钟的高质量视频。这项发表于2025年9月的研究,显著降低了长视频生成的误差累积问题,为交互式世界模型奠定基础。
针对当前视频生成模型的2D局限,胡文博团队提出ViewCrafter和TrajectoryCrafter两大解决方案:前者实现静态场景的多视角合成,后者拓展至4D动态场景重建,允许用户按自定义相机轨迹“重拍”视频。这些创新将相机可控性确立为视频模型进化为世界模拟器的关键路径,推动着三维空间合理性与一致性的技术突破。
胡文博认为,精确的3D感知能力是下一代视频生成模型的核心挑战。在即将到来的GAIR大会上,他将系统阐述如何通过三维感知架构,使AI真正理解物理世界的运作规律。这些探索不仅为游戏、影视等产业带来革新,更标志着人工智能向通用世界模拟器迈进的重要一步。
原文和模型
【原文链接】 阅读原文 [ 1764字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆




