Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂

AIGC动态7个月前发布 AIera
616 0 0
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂

 

文章摘要


【关 键 词】 微软SoraMora视频生成智能体框架

微软团队与理海大学联合开发出一种全新的多AI智能体框架——Mora,旨在复刻并扩展Sora视频生成能力。

Mora通过整合多个视觉AI智能体,实现了文本到视频生成基于文本条件的图像到视频生成扩展已生成视频视频到视频编辑拼接视频以及模拟数字世界等多种任务。

实验结果显示,Mora在这些任务中的表现接近Sora,尤其在文本到视频生成任务中的表现超越了现有的开源模型,排名第二,仅次于Sora。

Mora的关键在于将视频生成过程分解为多个子任务,并为每个任务指派专门的智能体,以满足用户的多样化需求。

在推理过程中,Mora会生成一个中间图像或视频,保持文本到图像模型中的视觉多样性风格质量,并增强编辑功能。

通过高效地协调处理从文本到图像、从图像到图像、从图像到视频以及从视频到视频的转换任务的智能体,Mora能够处理一系列复杂的视频生成任务,提供出色的编辑灵活性和视觉真实度。

Mora定义了五种基本类型的智能体:提示选择与生成文本到图像生成图像到图像生成图像到视频生成、以及视频到视频生成。每种智能体都有其专业领域的输出,例如,文本到图像生成智能体负责将丰富的文本描述转化为高质量的图像,图像到视频生成智能体负责将静态图像转化为动态视频。

然而,Mora也存在一些局限性,例如在涉及大量物体移动的场景中,生成的视频质量明显不高,质量随视频长度增加而降低,尤其是在超过12秒之后。此外,Mora还不能控制对象的运动方向,比如无法让对象向左或向右移动。这些局限主要是因为Mora的视频生成,是基于图像转视频的方法,而不是直接从文本提示中获取指令。

原文和模型


【原文链接】 阅读原文 [ 4214字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4-32k
【摘要评分】 ★☆☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...