一键生成 16 秒 1080P 视频，国产 Sora 的秘密，藏在这个清华系大模型团队中

AIGC动态2年前 (2024)发布 Founder Park

3,403 0 0

一键生成 16 秒 1080P 视频，国产 Sora 的秘密，藏在这个清华系大模型团队中

文章摘要

在2024年，Sora技术因其在长视频生成领域的革命性突破而受到全球关注。Sora技术采用Diffusion加Transformer架构，克服了传统Stable Diffusion算法的扩展性问题，并在内容生成的准确性和灵活性上取得了显著进步。然而，Sora并非开源算法，这限制了其他企业对其技术的复现和应用。

在这种背景下，中国的AI企业生数科技联合清华大学发布了国内首个基于纯自研U-ViT架构的视频大模型“Vidu”。Vidu能够一键生成长达16秒、1080p分辨率的高清视频内容，其在多镜头生成、时间和空间一致性、模拟真实物理世界以及想象力等方面的表现几乎与Sora相当。Vidu的发布被视为国产Sora的重要进展，尤其是在画面时间长度和细节连贯性方面。

生数科技的Vidu模型采用了与Sora相似的融合架构，即将Diffusion模型与Transformer结合。这种架构利用了Transformer的可扩展性和Diffusion模型在视觉任务中的优势，展现出卓越的涌现能力。生数科技的团队核心成员来自清华大学人工智能研究院，是国内最早开展深度生成式研究的团队之一。他们的研究成果已被OpenAI、苹果、Stability AI等应用于DALL·E 2、Stable Diffusion等模型中。

生数科技之所以能在短短时间内取得显著成果，主要得益于他们早早走对了技术路线，并在图像和3D领域积累了丰富的工程化经验。公司的发展策略是先从2D图像开始，逐步拓展到3D和视频，这种循序渐进的路径有助于团队在视频生成技术上取得快速突破。此外，生数科技在视频数据压缩技术和分布式训练框架方面的创新，也为其在视频生成领域的快速发展提供了支持。

总的来说，生数科技的Vidu模型在技术上与Sora站在了同一起跑线，甚至更早。通过在图像、3D和视频领域的逐步深入，生数科技不仅在技术上取得了突破，也为国产AI企业在长视频生成领域的发展提供了新的可能性。