美团杀入视频生成模型赛道,LongCat-Video 136亿参数媲美顶尖模型,效率提升10倍

AIGC动态13小时前发布 AIGCOPEN
57 0 0
美团杀入视频生成模型赛道,LongCat-Video 136亿参数媲美顶尖模型,效率提升10倍

 

文章摘要


【关 键 词】 AI视频生成开源模型强化学习多任务架构

美团LongCat团队发布了LongCat-Video基础视频生成模型,该模型拥有136亿参数,能在数分钟内生成720p、30帧每秒的高质量视频。模型在文本转视频、图像转视频和长视频续写等多个任务上表现优异,其核心亮点包括统一的多任务架构、卓越的长视频生成能力、高效的推理性能,以及通过多奖励强化学习人类反馈(RLHF)实现的强大效果。LongCat-Video用一个模型统一了文本到视频、图像到视频、视频续写、交互式生成几大任务,展现了技术上的突破。

训练高质量视频生成模型的关键在于大规模、多样化且高品质的数据集。团队建立了一套全面的数据处理流水线,从原始视频数据收集开始,确保数据源的纯净性。通过开源工具和自研模型,将长视频精准分割成内容连贯的短片,并打上涵盖基本元数据、美学评分、运动信息等多维标签。视频字幕的准确性和丰富性对模型训练至关重要,团队利用多个模型从不同维度为视频打标签,并增强字幕文本以支持双语生成和多样化风格描述。数据集的均衡性通过聚类分析和内容类别评估得到保障。

LongCat-Video采用扩散变换器(DiT)架构,通过统一的框架支持文本到视频、图像到视频和视频续写三大任务。模型将输入设计为条件帧序列和噪声帧序列的拼接,并采用特殊的块注意力机制提升效率。这种设计使得条件帧的键值特征可缓存,显著优化了长视频生成的性能。模型还通过WAN2.1 VAE压缩视频数据,并使用umT5文本编码器支持中英双语理解。

基础模型训练完成后,团队采用组相对策略优化(GRPO)进行强化学习精调。通过改进采样方案和梯度归一化,解决了奖励信号归因模糊和梯度消失问题。模型利用视觉质量、运动质量和文生视频对齐度三个奖励模型进行多维度优化,防止单一指标过拟合。这种多奖励组合为策略优化提供了全面指导,同时形成自然正则化效果。

为提升生成效率,LongCat-Video引入从粗到细的生成范式,分两步生成高分辨率视频。首先生成低分辨率草稿视频,再通过精炼专家模型细化。精炼专家采用LoRA微调技术,高效适应新任务。模型还开发了可训练的块稀疏注意力算子,减少冗余计算,实现近乎无损的生成质量。团队将这一实现开源,方便社区使用。

训练流程分为基础模型训练、RLHF训练和加速训练三部分。基础模型采用流匹配框架和渐进式预训练策略,从低分辨率逐步过渡到高分辨率。RLHF训练通过GRPO方法提升模型性能,而加速训练则结合无分类器指导蒸馏和一致性模型蒸馏,显著减少推理步骤。LongCat-Video的开源可能打破当前视频生成领域的格局,为开发者提供新的选择。

原文和模型


【原文链接】 阅读原文 [ 4248字 | 17分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...