再谈复现 Sora：被仰望与被遗忘的

AIGC动态2年前 (2024)发布 almosthuman2014

3,644 0 0

文章摘要

2023年2月16日，OpenAI发布了视频生成领域的创新模型——Sora。Sora以其对Scaling Law的信仰和突破性技术创新，持续保持行业领先地位，并再次证明了在视频生成领域，强大的计算能力仍然至关重要。尽管Sora的技术细节尚未完全公开，且模型本身也未正式对外开放，但Sora的发布已经引发了业界对视频生成技术和框架的深入思考与讨论，激发了技术人员复现Sora的热情。复现Sora的动力不仅源于技术执着和理想，还来自于预期的商业价值。OpenAI虽然在闭源的道路上越走越远，但这也使得公众对复现Sora的激情更加高涨。预计未来几个月内，将有多个类Sora模型陆续发布并开源。

目前，已经推出了几个类Sora模型，包括Snap Video、Open-Sora 1.0和Mora。Snap Video由Snap公司和特伦托大学等机构开发，使用了可扩展的时空Transformer。Open-Sora 1.0由Colossal-AI团队全面开源，包括数据处理、训练细节和模型权重。Mora由理海大学和微软研究院的研究者提出，整合了多种先进的视觉AI智能体，以复制Sora的通用视频生成能力。尽管这些模型的复现效果尚未达到Sora的水平，但技术突破的出现是一个乐观的信号。据报道，国内已有近10支团队在复现Sora。

在技术架构创新方面，Sora使用的DiT（Diffusion Transformer）架构是其最大的技术创新，但国内的相关进度可能更早。例如，清华大学团队在2022年9月提交的论文提出了基于Transformer的网络架构U-ViT，比DiT早两个月。此外，中国人民大学研究团队主导的Video Diffusion Transformer (VDT)也基于Transformer架构，提供了详细的技术解释。这些探索表明，国内在技术架构上的创新并不落后，有可能复现甚至超越Sora的效果。

Sora是否是世界模型的问题也引发了广泛讨论。Sora生成的视频显示出对物理世界的理解，但一些科学家认为其训练方式与世界模型无关。如果Sora是世界模型，那么它可能加速实现通用人工智能（AGI）。复现Sora的必要性因此而增加。

机器之心AI技术论坛将于2024年4月13日在北京六道口举办，聚焦Sora发布后的技术创新、思考与应用实践。论坛将邀请业内知名技术专家、视频生成模型作者、投资人等，共同探讨Sora的核心技术、技术创新和应用实践等议题。

此外，机器之心还建立了视频生成技术交流群，方便技术从业者交流技术细节和行业观察。论坛报名通道已开启，提供早鸟特惠门票和团购优惠。参与者将有机会获得永久观看论坛活动视频及课件、与技术大牛面对面交流、加入高质量技术交流社群等福利。