Open-Sora 全面开源升级：支持 16s 视频生成和 720p 分辨率

AIGC动态1年前 (2024)发布 aitechtalk

2,205 0 0

文章摘要

国产视频生成模型Open-Sora在开源社区中进行了更新，现在支持长达16秒的视频生成，分辨率最高可达720p，并能处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。以下是对Open-Sora更新内容的详细总结：

1. 技术报告与新特性：
– Open-Sora的技术报告在GitHub上发布，介绍了模型的关键更新，包括支持长视频生成、最高720p的分辨率、单模型支持不同宽高比和分辨率、更稳定的模型架构设计以及开源的自动数据处理全流程。

2. 时空扩散模型ST-DiT-2：
– 对原有的STDiT架构进行了改进，提高了训练稳定性和性能。采用了旋转位置编码（RoPE embedding）替代正弦波位置编码，并引入了QK归一化技术以增强半精度训练的稳定性。

3. 多阶段训练方法：
– Open-Sora采用了多阶段训练方法，通过分步骤引入数据，逐步提升视频数据的分辨率，从而更高效地实现高质量视频生成。

4. 统一的图生视频/视频生视频框架：
– 提出了基于Transformer的掩码策略，支持图像和视频的条件化处理，包括图生视频、循环视频、视频延展等多种生成任务。

5. 掩码策略配置：
– 引入了随机掩码策略，以随机方式选择并取消掩码的帧，增强模型对图像条件化的处理能力。

6. 支持多时间/分辨率/长宽比/帧率训练：
– 采用了分桶策略，通过预定义不同分辨率的视频宽高比，对数据集进行重新洗牌和分配，以增加采样灵活性并改善帧和构图。

7. 数据收集和预处理流程：
– 提供了详尽的数据收集与处理指南，建立了自动化的数据处理流程，包括场景分割、字幕处理、多样化评分与筛选等。

8. 性能评测与视频生成效果：
– Open-Sora能够根据文字描述生成动态视频，包括风景、自然生物等，展现了其在视频生成方面的强大能力。

综上所述，Open-Sora的更新带来了显著的性能提升和新功能，使其成为一个更加强大和灵活的视频生成工具。开源的特性也意味着社区可以共同参与到模型的改进和创新中。

原文和模型

【原文链接】 阅读原文 [ 4444字 | 18分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 图像生成 # 大模型 # 视频生成 # 多阶段训练 # 技术报告 # 掩码策略 # 自动化处理 # 视频生成

文章版权归作者所有，未经允许请勿转载。

Sora大火，OpenAI公司的风险管理模式值得学习

admin

2,072

比Sora惊艳！文本生成超25秒视频，带背景音乐、转场等效果

AIGC开放社区

1,861

中国的开源版 sora：4090 内单卡运行，A6000 可微调

AI科技评论

2,088

抢先测了刚刚发布的Vidu后，对“Sora们”已经麻木的我居然被惊艳到了？

硅星人Pro

2,081

还得是开源！潞晨Open-Sora技术路线公开，一键生成16秒720p视频，质量更高训练成本更低

量子位

2,264

OpenAI 正式发布 Sora，一文看懂它的文生视频功能到底强在哪？

极客公园

1,388

暂无评论

暂无评论...

Open-Sora 全面开源升级：支持 16s 视频生成和 720p 分辨率

文章摘要

原文和模型

全球最大开源模型再刷爆纪录！4800亿参数MoE击败Llama 3、Mixtral

国内销量持续领跑，荣耀告诉你切入AI手机的正确姿势

相关文章

暂无评论

热门网址

热门文章

Open-Sora 全面开源升级：支持 16s 视频生成和 720p 分辨率

文章摘要

原文和模型

全球最大开源模型再刷爆纪录！4800亿参数MoE击败Llama 3、Mixtral

国内销量持续领跑，荣耀告诉你切入AI手机的正确姿势

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章