港中文薛天帆团队：实现 4K 全景视频生成，普通视频也能「长出空间」丨CVPR 2026

54 0 0

文章摘要

香港中文大学薛天帆团队提出CubeComposer新方案应对挑战。这种方法利用时空自回归原理，从有限视角的视频直接扩展为原生4K 质量的360 视频，而不是依赖后期拉伸画质模糊的画面。研究者构建了专用的大规模数据集，并通过半监督学习提取语义标签供模型参考。系统在推理阶段会逐个 CUB Map 不同侧面，结合前后的时间序列信息进行预测。

定性测试结果显示该方法在稳定性和语义一致性上有显著进步。与业界主流基准比对，模型各项得分指标均更优。特别是时序帧率的波动控制更好，视觉上几乎没有拼接断裂的瑕疵。研究人员还验证了几个关键设计模块的作用，比如去掉未来信息或位置编码会让效果明显变差，说明了架构设计的科学性。该方案通过时空分治的方式解决了复杂的视频构建难题，使得全流程可控性强。

技术的突破点在于有效控制了巨大的显存与算力压力。以往的方法往往因为负担过重而无法在普通设备上运行，这次的分时段任务处理方式极大地释放了硬件限制。依托背后资深科研人员在计算机视觉领域的深厚积淀，这些算法正在成为工业级的标准参考。这项进展预示着普通人也将有能力创作高质量的沉浸式数字内容。

该项工作的社会影响将扩展到虚拟旅游与数字展览等多个领域。从业者不需要昂贵的专用设备即可制造具有空间深度的素材，学生或小型创作者也能享受高级视觉工具的红利。最终目标是推动技术成果惠及更多人，让个人都能成为数字空间的主动构建者。这种转变不仅重塑生产链条，也为受众赋予更多探索虚拟世界的权限。随着研究的进一步深化与迭代，网络交互空间将获得更加丰富且逼真的体验支持，标志着视频技术正迈向一个新的融合发展阶段。