再谈复现 Sora:被仰望与被遗忘的

再谈复现 Sora:被仰望与被遗忘的

 

文章摘要


【关 键 词】 Sora视频生成技术创新DiT论坛活动

OpenAI发布了视频生成领域的创新模型——Sora。Sora以其对Scaling Law的信仰和突破性技术创新,持续保持行业领先地位,并再次证明了在视频生成领域,强大的计算能力仍然至关重要。尽管Sora的技术细节尚未完全公开,且模型本身也未正式对外开放,但Sora的发布已经引发了业界对视频生成技术和框架的深入思考与讨论,激发了技术人员复现Sora的热情。复现Sora的动力不仅源于技术执着和理想,还来自于预期的商业价值。OpenAI虽然在闭源的道路上越走越远,但这也使得公众对复现Sora的激情更加高涨。预计未来几个月内,将有多个类Sora模型陆续发布并开源。

目前,已经推出了几个类Sora模型,包括Snap VideoOpen-Sora 1.0Mora。Snap Video由Snap公司和特伦托大学等机构开发,使用了可扩展的时空Transformer。Open-Sora 1.0由Colossal-AI团队全面开源,包括数据处理、训练细节和模型权重。Mora由理海大学和微软研究院的研究者提出,整合了多种先进的视觉AI智能体,以复制Sora的通用视频生成能力。尽管这些模型的复现效果尚未达到Sora的水平,但技术突破的出现是一个乐观的信号。据报道,国内已有近10支团队在复现Sora。

在技术架构创新方面,Sora使用的DiT(Diffusion Transformer)架构是其最大的技术创新,但国内的相关进度可能更早。例如,清华大学团队提交的论文提出了基于Transformer的网络架构U-ViT,比DiT早两个月。此外,中国人民大学研究团队主导的Video Diffusion Transformer (VDT)也基于Transformer架构,提供了详细的技术解释。这些探索表明,国内在技术架构上的创新并不落后,有可能复现甚至超越Sora的效果。

Sora是否是世界模型的问题也引发了广泛讨论。Sora生成的视频显示出对物理世界的理解,但一些科学家认为其训练方式与世界模型无关。如果Sora是世界模型,那么它可能加速实现通用人工智能(AGI)。复现Sora的必要性因此而增加。

机器之心AI技术论坛将于在北京六道口举办,聚焦Sora发布后的技术创新、思考与应用实践。论坛将邀请业内知名技术专家、视频生成模型作者、投资人等,共同探讨Sora的核心技术、技术创新和应用实践等议题。

此外,机器之心还建立了视频生成技术交流群,方便技术从业者交流技术细节和行业观察。论坛报名通道已开启,提供早鸟特惠门票和团购优惠。参与者将有机会获得永久观看论坛活动视频及课件、与技术大牛面对面交流、加入高质量技术交流社群等福利。

原文和模型


【原文链接】 阅读原文 [ 3781字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...