钛媒体AGI沙龙第一期：“中国版Sora”刚刚诞生，文生视频模型的未来究竟在哪里？

AIGC动态2年前 (2024)发布 TMTPOSTAGI

2,573 0 0

钛媒体AGI沙龙第一期：“中国版Sora”刚刚诞生，文生视频模型的未来究竟在哪里？

文章摘要

【关键词】 AI视频生成、Sora模型、Vidu模型、AGI技术、多模态大模型

在2024年2月16日，美国OpenAI公司发布了Sora视频生成模型，这是AI首次生成长达1分钟的多镜头视频，输入简短的文字描述即可生成具有电影级镜头感的视频，引起了全球的广泛关注。随后，全球AI公司开始争相开发类似Sora的视频生成模型，被称为“中国版Sora”。
2024年4月27日，在中关村论坛“未来人工智能先锋论坛”上，清华大学与生数科技联合推出了中国首个长时长、高一致性、高动态性的视频大模型Vidu，被认为是国内首个达到Sora级别的视频模型。Vidu采用了Diffusion与Transformer融合架构U-ViT，能够生成16秒长、1080P分辨率的视频，模拟物理世界，并具备多镜头生成和高时空一致性等特点。清华大学教授朱军表示，Vidu的技术路线与Sora高度一致，这是其能够达到优异效果的原因。
在2024商汤技术交流日上，商汤科技也公布了三段完全由大模型生成的视频，并强调了其文生视频平台在人物、动作和场景的可控性方面取得的重要技术突破。
随着OpenAI技术的快速发展，中国正在加速学习和创新，以实现Sora级视频模型的技术突破，推动AGI技术的到来。在4月10日钛媒体AGI举办的闭门沙龙活动中，生数科技产品负责人张旭东和商汤研究院研发总监卢乐炜共同探讨了AI视频生成模型背后的技术细节和行业未来趋势。
张旭东认为，Sora推动了AI视频模型的落地，并且未来可能需要与GPT进行融合。他强调，扩散模型（diffusion model）的本质是构建概率分布，随着模型规模的增大，生成效果将变得更加逼真。卢乐炜则指出，Sora利用了强大的视频encoder进行时空建模，并且Scaling law（尺度定律）在其中起到了重要作用，推动了产业向多模态大模型和文生视频模型的方向发展。
展望未来，卢乐炜强调，虽然目前离AGI还有一定的距离，但随着模型容量的增大和对不同领域数据的吸收，未来可能会出现成为底层通用AI基础模型的机会。同时，每个大型行业都有其特定的产品逻辑和背景，因此市场对定制模型的需求将长期存在。此外，未来供电和能源问题可能成为国内发展大模型的另一重要驱动力。
在沙龙活动中，两位嘉宾还讨论了Sora的核心优势、多模态模型与视频模型的区别、Sora的开放背后的考虑、非Transformer架构的兴起、贝叶斯和无监督算法在AI发展中的地位、商汤科技在多模态大模型和视频模型方面的进展、场景化模型的客户需求、端侧多模态模型的发展以及AGI的未来趋势等话题。
张旭东认为，端侧模型在手机相册搜索、抠图等场景中非常有用，目前与手机厂商的合作主要集中在人像场景。他预测，随着对数据理解的深入和芯片技术的迭代，AI PC和AI Phone的概念将在未来两年内变得更加实用。卢乐炜则表示，AI Phone是一个大趋势，随着模型参数的增加，端侧模型的性能将大幅提升，未来80%的模型可能在端侧完成，而20%在云端。
最后，关于AGI的未来发展，张旭东认为，生成式AI与以往的技术有很大不同，其通用性更强，未来前景光明。卢乐炜则认为，虽然离AGI还很远，但随着技术的发展，可能会出现成为通用模型的机会，同时市场对行业定制模型的需求将长期存在。