Vidu直逼Sora,生数科技:还说“中国sora”就太没想象力了【内附Vidu逐帧拆解】

Vidu直逼Sora,生数科技:还说“中国sora”就太没想象力了【内附Vidu逐帧拆解】

 

文章摘要


【关 键 词】 视频大模型ViduSora生数科技多模态

在2024年4月27日的中关村论坛上,生数科技与清华大学联合发布了中国首个长时长、高一致性、高动态性的视频大模型——ViduVidu能够一键生成16秒、1080P分辨率的视频内容,其一致性和运动幅度已达到Sora水准。尽管Vidu的视频时长尚未超过Sora最长的60秒,但其整体性能已经可以与Sora相媲美。生数科技的核心团队来自清华人工智能研究院,由副院长朱军博士牵头。公司表示,Vidu的视频时长将继续突破,并且其架构支持多模态,视频模态仅是当前阶段的重点。Vidu的模型架构灵活,未来将兼容更广泛的多模态能力,显示出生数科技的野心远不止成为中国的Sora。

为了评估Vidu的性能,生数科技逐帧对比了Vidu与Sora在多个场景下的表现。在经典走路场景中,Vidu生成的街头美女、帅哥和熊的走路效果与Sora不相上下,但在人物动作协调性方面略逊一筹。在越野车行驶场景中,Vidu的丛林背景呈现出3D动画效果,而Sora的背景更具真实性。在展示中国龙的场景中,Vidu和Sora都展现了各自的特点,但Sora的视频画面丰富度更高。在人物眼睛特写场景中,Vidu的表现与Sora不相上下,难以区分是真实拍摄还是AI生成。在电视合集场景中,Vidu的画面丰富度和运镜效果与Sora相当。在狗狗游泳场景中,Sora生成的狗狗动态感和真实感更强,但Vidu对狗狗游泳时腿部毛发漂浮的细节处理得也很好。在“带珍珠的猫”场景中,Vidu展现了玄幻风格,镜头旋转后毛发细节感表现不错。在船与“海”的场景中,Vidu的波浪流动符合物理规则,与Sora不相上下。最后,在宇航员场景中,Vidu和Sora都提供了有趣的不同视角。

综上所述,Vidu在多个场景下的表现已经接近或达到Sora的水平,显示出中国在视频生成技术方面的重要进展。生数科技的Vidu模型不仅在视频生成方面具有潜力,而且其灵活的架构预示着未来在多模态领域的广泛应用。

原文和模型


【原文链接】 阅读原文 [ 3529字 | 15分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
AcademicIdeas – 学境思源AI论文写作

相关文章

AcademicIdeas – 学境思源AI论文写作

暂无评论

暂无评论...