清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律

AIGC动态2年前 (2024)发布 QbitAI

3,476 0 0

清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律

文章摘要

【关键词】 AI视频生成、Vidu模型、技术创新、清华大学、多模态大模型

Vidu模型的发布：「Vidu」能够一键生成长达16秒、分辨率达1080p的高清视频内容，其画面效果非常接近Sora，表现出色在多镜头语言、时间和空间一致性、遵循物理规律等方面。

全面对标Sora：生数科技的CEO唐家渝曾表示，「Vidu」将在今年内达到Sora的效果。目前，「Vidu」在视频生成的多个关键方面已经逼近Sora的水平。

视频长度和质量：「Vidu」生成的视频长度突破了10秒大关，达到了16秒，且画面连续流畅，具有细节和逻辑连贯性。

镜头语言的注入：「Vidu」在视频制作中成功地注入了镜头语言，通过不同的镜头选择、角度、运动和组合，提升了视频的叙事感。

时间和空间的一致性：「Vidu」在保持视频画面的连贯和流畅性方面表现出色，克服了AI生成视频中常见的时空不一致问题。

模拟真实物理世界：「Vidu」能够模拟真实物理世界的运动，如物体的移动和相互作用，其效果与人类在真实物理世界中的体验非常接近。

丰富的想象力：「Vidu」能够生成现实世界中不存在的画面，为创作超现实主义内容提供了便利。

理解中国元素：「Vidu」能够生成具有中国特色元素的画面，如熊猫、龙、宫殿场景等。

技术路线和工程化基础：「Vidu」基于自研的U-ViT架构，该架构融合了Diffusion和Transformer的优势。团队在图文任务中积累的经验为视频模型的研发提供了基础。

团队背景：生数科技是一支由清华大学人工智能研究院背景的团队，专注于图像、3D、视频等多模态大模型领域。团队在生成式人工智能和贝叶斯机器学习领域有20余年的研究经验，并在国际顶会上发表了近30篇相关论文。

融资和认可：生数科技已获得蚂蚁集团、启明创投、BV百度风投、字节系锦秋基金等多家知名产业机构的认可，并完成了数亿元融资。

文章最后提到，「Vidu」目前正在加速迭代提升，其灵活的模型架构将能够兼容更广泛的多模态能力。

原文和模型

【原文链接】 阅读原文 [ 4214字 | 17分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # AI大模型 # 图像生成 # 视频生成 # AI视频生成 # Vidu模型 # 多模态大模型 # 技术创新 # 清华大学

文章版权归作者所有，未经允许请勿转载。

语音界Deepseek！百度最新跨模态端到端语音交互，成本最高降90%

量子位

3,101

开源模型是中美缩小AI技术差距的关键因素之一？｜钛媒体AGI

钛媒体AGI

4,258

从「大模型」到「具身智能」，安克深耕前沿技术的另一面藏在这里

机器之心

3,502

人本智能时代：谁在为AI“立规矩”？

硅星人Pro

3,112

突发！特斯拉裁员 1.4 万人，马斯克跌落凡间

极客公园

3,139

赵何娟对话诺奖得主约翰逊：特朗普与AI都将带来全球的分化冲击 | T-EDGE

钛媒体AGI

2,971

暂无评论

暂无评论...

清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律

文章摘要

原文和模型

当前最强国产Sora！清华团队突破16秒长视频，懂多镜头语言，会模拟物理规律

Sora的真实使用体验

相关文章

暂无评论

热门网址

热门文章

清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律

文章摘要

原文和模型

当前最强国产Sora！清华团队突破16秒长视频，懂多镜头语言，会模拟物理规律

Sora的真实使用体验

相关文章

暂无评论

AstronClaw-安全养虾

LibTV-AI视频创作

讯飞AI大学堂

热门网址

热门文章