VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

文章摘要
【关 键 词】 强化学习、视频生成、多模态、模型优化、文本描述
复旦大学等机构在视频生成领域取得了显著进展,通过引入强化学习技术,优化了视频生成模型的效果。研究团队提出了Cockatiel方法,该方法在视频细粒度文本描述(VDC)评测集上表现优异,超越了多个主流视频理解多模态大模型。Cockatiel方法的核心在于基于人类偏好对齐的高质量合成数据,设计了三阶段微调训练流程,集成了多个在不同描述维度上表现领先的模型优势。通过这一方法,研究团队以单机的训练成本训练出了一套在细粒度表达、人类偏好一致性等方面均表现卓越的视频细粒度描述模型,为后续视频生成模型的训练和优化打下了坚实基础。
在视频生成技术方面,研究团队首次提出了迭代式强化学习偏好优化方法(IPOC),该方法在权威视频生成评测榜单VBench上以86.57%的总分登顶,领先于多个国内外知名视频生成模型。IPOC方法通过迭代式强化学习优化方式,避免了强化学习中训练不稳定的问题,同时只需要依赖少量的训练数据和算力,以低成本实现效果优化。该方法通过人工偏好数据标注、奖励模型训练和迭代强化学习优化三个阶段,显著提升了视频生成模型在时序一致性、结构合理性、动态程度和美学度等方面的表现。
实验结果显示,基于Cockatiel系列模型生成的视频细粒度描述具备维度全面、叙述精准详实以及幻觉现象较少的显著优势。与基线模型相比,Cockatiel-13B不仅能够准确复现基线模型所描述的细节,还能捕捉到基线模型遗漏的关键信息,展现了更高的可靠性和准确性。而在视频生成方面,IPOC方法生成的视频在时序一致性、结构合理性、动态程度和美学度上均有明显提升,进一步验证了该方法的有效性。
总体而言,复旦大学等机构的研究为视频生成领域提供了新的技术路径,通过强化学习技术的引入,显著提升了视频生成模型的效果和效率。这些成果不仅为视频生成技术的发展提供了新的思路,也为相关领域的应用奠定了坚实的基础。
原文和模型
【原文链接】 阅读原文 [ 1970字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆