美团视频生成模型来了！一出手就是开源SOTA

690 0 0

文章摘要

美团最新开源视频生成模型LongCat-Video在多项核心指标上达到开源领域顶尖水平。这款参数规模达13.6B的模型支持文生视频、图生视频及视频延长三大功能，能够生成长达5分钟的720p高清视频。其生成的视频在物理规律遵循、动态细节处理等方面表现突出，在VBench 2.0测试中常识性维度位列第一，部分指标甚至接近谷歌闭源模型Veo3。

模型采用创新的Diffusion Transformer框架，通过统一任务定义将不同生成模式整合为视频续生任务。技术团队摒弃传统两阶段训练方式，直接在视频续生任务上进行预训练，有效解决长视频生成中的累积误差问题。独特的块注意力机制与交互式生成设计，使模型能根据分段指令创作连续剧式内容。效率优化方面，通过从粗到精的生成范式、块稀疏注意力等技术，将单H800 GPU上的生成时间缩短至分钟级。

在具体应用场景中，模型展现出强大的多模态理解能力。文生视频功能对复杂运动场景的还原度令人印象深刻，如水上芭蕾表演能准确捕捉肢体动作与光影交互；图生视频则保持参考图像的主体属性一致性，机器人办公场景中物品位置与环境细节始终稳定。视频延长功能突破性地实现情节连贯发展，用户通过递进式提示词即可生成具有叙事逻辑的片段。

美团将此次技术突破定位为世界模型研究的重要进展，认为视频生成模型能压缩几何、物理等多维度知识，为AI模拟真实世界运行提供关键路径。模型采用允许商用的MIT协议发布，已引发行业广泛关注。这延续了美团在AI领域的连续创新态势，继此前推出560B参数大模型、音频编解码器等成果后，再次展现其跨界技术实力。研究团队表示，未来将持续优化图像对齐等薄弱环节，并探索视频生成在商业场景的深度应用。