Sora不开源，微软给你开源！全球最接近Sora视频模型诞生，12秒生成效果逼真炸裂

AIGC动态1年前 (2024)发布 AIera

1,841 0 0

Sora不开源，微软给你开源！全球最接近Sora视频模型诞生，12秒生成效果逼真炸裂

文章摘要

【关键词】 微软、Sora、Mora、视频生成、智能体框架

微软团队与理海大学联合开发出一种全新的多AI智能体框架——Mora，旨在复刻并扩展Sora的视频生成能力。

Mora通过整合多个视觉AI智能体，实现了文本到视频生成、基于文本条件的图像到视频生成、扩展已生成视频、视频到视频编辑、拼接视频以及模拟数字世界等多种任务。

实验结果显示，Mora在这些任务中的表现接近Sora，尤其在文本到视频生成任务中的表现超越了现有的开源模型，排名第二，仅次于Sora。

Mora的关键在于将视频生成过程分解为多个子任务，并为每个任务指派专门的智能体，以满足用户的多样化需求。

在推理过程中，Mora会生成一个中间图像或视频，保持文本到图像模型中的视觉多样性、风格和质量，并增强编辑功能。

通过高效地协调处理从文本到图像、从图像到图像、从图像到视频以及从视频到视频的转换任务的智能体，Mora能够处理一系列复杂的视频生成任务，提供出色的编辑灵活性和视觉真实度。

Mora定义了五种基本类型的智能体：提示选择与生成、文本到图像生成、图像到图像生成、图像到视频生成、以及视频到视频生成。每种智能体都有其专业领域的输出，例如，文本到图像生成智能体负责将丰富的文本描述转化为高质量的图像，图像到视频生成智能体负责将静态图像转化为动态视频。

然而，Mora也存在一些局限性，例如在涉及大量物体移动的场景中，生成的视频质量明显不高，质量随视频长度增加而降低，尤其是在超过12秒之后。此外，Mora还不能控制对象的运动方向，比如无法让对象向左或向右移动。这些局限主要是因为Mora的视频生成，是基于图像转视频的方法，而不是直接从文本提示中获取指令。