开源Open-Sora大更新：可生成16秒，720P高清视频

AIGC动态2年前 (2024)发布 AIGCOPEN

3,946 0 0

文章摘要

本文介绍了国内著名大模型开源公司潞晨科技的开源文生视频模型Open-Sora的大更新。该模型现在能够生成16秒、分辨率高达720P的视频，并具备处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的多模态功能。潞晨科技已经将Open-Sora的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程以及所有的训练细节全部开源。目前，Open-Sora在github上拥有超过16,000颗星，是国内乃至全球领先的类Sora开源模型之一。新版本的Open-Sora进行了架构升级，采用了一种多阶段训练方法，引入了QK归一化技术以增强训练的稳定性，并提出了ST-DiT-2架构来支持多分辨率、不同长宽比和帧率的训练需求。研究人员还提出了一种统一的图生视频/视频生视频框架，支持各种生成任务。此外，为了支持多时间/分辨率/长宽比/帧率训练，引入了分桶的策略，并在数据收集和预处理流程中建立了一个自动化的数据处理流程，遵循奇异值分解（SVD）原则，包括场景分割、字幕处理、多样化评分与筛选等。整个开源社区也将数据处理的相关脚本分享至开源社区，以帮助其他开发者高效地处理和优化自己的数据集。