中国的开源版 sora：4090 内单卡运行，A6000 可微调

AIGC动态2年前 (2024)发布 aitechtalk

4,047 0 0

文章摘要

智谱版Sora「清影」是一款商用级视频生成模型，于7月26日发布，能在30秒内将任意文图生成视频。该产品已在智谱AI助手「智谱清言」上线，6天内生成视频数突破百万。智谱AI宣布将与「清影」同源的视频生成模型CogVideoX开源，提供给开发者和企业自由开发视频生成模型，推动行业创新。

CogVideoX开源模型包含多个尺寸大小的模型，目前开源的CogVideoX-2B在FP-16精度下的推理仅需18GB显存，微调需要40GB显存。该模型支持6秒长视频生成，帧率为8帧/秒，分辨率为720*480。开源模型为视频质量提升预留了空间，开发者可在多方面进行优化和探索。

智谱采用基于3D变分自编码器（3D VAE）的视频压缩方法，通过三维卷积压缩视频空间和时间维度，实现高压缩率和良好重建质量。模型结构包括编码器、解码器和潜在空间正则化器，通过下采样和上采样实现压缩。时间因果卷积确保信息因果性，减少通信开销。智谱采用上下文并行技术适应大规模视频处理，分两阶段训练模型，先在低帧率训练，再在高帧率微调。训练损失函数结合L2损失、感知损失和GAN损失。

智谱使用VAE编码器将视频压缩至潜在空间，分割成块并展开成长序列嵌入z_vision。同时使用T5编码文本输入为文本嵌入z_text，拼接后送入专家Transformer处理。最后通过反向拼接嵌入恢复原始潜在空间形状，使用VAE解码重建视频。

视频生成模型训练需筛选高质量视频数据，智谱开发负面标签排除低质量视频，通过video-llama训练的过滤器标注筛选20,000个视频数据点。计算光流和美学分数，动态调整阈值，确保生成视频质量。视频数据缺少文本描述，智谱提出从图像字幕生成视频字幕的管道，微调端到端视频字幕模型获得更密集字幕。使用Panda70M、CogView3和GPT-4模型生成短视频字幕，微调CogVLM2-Caption模型加速视频字幕生成。

智谱使用VBench指标和额外视频评估工具评估文本到视频生成质量，如人类动作、场景、动态程度等。CogVideoX已验证scaling law在视频生成方面的有效性，智谱将继续扩大数据和模型规模，探索新型模型架构、高效压缩视频信息、充分融合文本和视频内容。

智谱版Sora「清影」的开源，为视频生成技术的发展和应用提供了新的可能性。开源模型的推出，降低了视频生成技术的门槛，使得更多开发者和企业能够参与到视频生成技术的研究和应用中来。通过持续的技术创新和优化，视频生成技术有望在更多领域发挥重要作用，推动相关行业的快速发展。