Open-Sora 全面开源升级:支持 16s 视频生成和 720p 分辨率

Open-Sora 全面开源升级:支持 16s 视频生成和 720p 分辨率

 

文章摘要


【关 键 词】 视频生成技术报告多阶段训练掩码策略自动化处理

国产视频生成模型Open-Sora在开源社区中进行了更新,现在支持长达16秒的视频生成,分辨率最高可达720p,并能处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。以下是对Open-Sora更新内容的详细总结:

1. 技术报告与新特性
– Open-Sora的技术报告在GitHub上发布,介绍了模型的关键更新,包括支持长视频生成、最高720p的分辨率、单模型支持不同宽高比和分辨率、更稳定的模型架构设计以及开源的自动数据处理全流程。

2. 时空扩散模型ST-DiT-2
– 对原有的STDiT架构进行了改进,提高了训练稳定性和性能。采用了旋转位置编码(RoPE embedding)替代正弦波位置编码,并引入了QK归一化技术以增强半精度训练的稳定性。

3. 多阶段训练方法
– Open-Sora采用了多阶段训练方法,通过分步骤引入数据,逐步提升视频数据的分辨率,从而更高效地实现高质量视频生成。

4. 统一的图生视频/视频生视频框架
– 提出了基于Transformer的掩码策略,支持图像和视频的条件化处理,包括图生视频、循环视频、视频延展等多种生成任务。

5. 掩码策略配置
– 引入了随机掩码策略,以随机方式选择并取消掩码的帧,增强模型对图像条件化的处理能力。

6. 支持多时间/分辨率/长宽比/帧率训练
– 采用了分桶策略,通过预定义不同分辨率的视频宽高比,对数据集进行重新洗牌和分配,以增加采样灵活性并改善帧和构图。

7. 数据收集和预处理流程
– 提供了详尽的数据收集与处理指南,建立了自动化的数据处理流程,包括场景分割、字幕处理、多样化评分与筛选等。

8. 性能评测与视频生成效果
– Open-Sora能够根据文字描述生成动态视频,包括风景、自然生物等,展现了其在视频生成方面的强大能力。

综上所述,Open-Sora的更新带来了显著的性能提升和新功能,使其成为一个更加强大和灵活的视频生成工具。开源的特性也意味着社区可以共同参与到模型的改进和创新中。

原文和模型


【原文链接】 阅读原文 [ 4444字 | 18分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...