美团视频生成模型来了!一出手就是开源SOTA

AIGC动态4小时前发布 QbitAI
37 0 0
美团视频生成模型来了!一出手就是开源SOTA

 

文章摘要


【关 键 词】 视频生成开源模型人工智能世界模型美团技术

美团最新开源视频生成模型LongCat-Video在多项核心指标上达到开源领域顶尖水平。这款参数规模达13.6B的模型支持文生视频、图生视频及视频延长三大功能,能够生成长达5分钟的720p高清视频。其生成的视频在物理规律遵循、动态细节处理等方面表现突出,在VBench 2.0测试中常识性维度位列第一,部分指标甚至接近谷歌闭源模型Veo3。

模型采用创新的Diffusion Transformer框架,通过统一任务定义将不同生成模式整合为视频续生任务。技术团队摒弃传统两阶段训练方式,直接在视频续生任务上进行预训练,有效解决长视频生成中的累积误差问题。独特的块注意力机制与交互式生成设计,使模型能根据分段指令创作连续剧式内容。效率优化方面,通过从粗到精的生成范式、块稀疏注意力等技术,将单H800 GPU上的生成时间缩短至分钟级。

在具体应用场景中,模型展现出强大的多模态理解能力。文生视频功能对复杂运动场景的还原度令人印象深刻,如水上芭蕾表演能准确捕捉肢体动作与光影交互;图生视频则保持参考图像的主体属性一致性,机器人办公场景中物品位置与环境细节始终稳定。视频延长功能突破性地实现情节连贯发展,用户通过递进式提示词即可生成具有叙事逻辑的片段。

美团将此次技术突破定位为世界模型研究的重要进展,认为视频生成模型能压缩几何、物理等多维度知识,为AI模拟真实世界运行提供关键路径。模型采用允许商用的MIT协议发布,已引发行业广泛关注。这延续了美团在AI领域的连续创新态势,继此前推出560B参数大模型、音频编解码器等成果后,再次展现其跨界技术实力。研究团队表示,未来将持续优化图像对齐等薄弱环节,并探索视频生成在商业场景的深度应用。

原文和模型


【原文链接】 阅读原文 [ 2791字 | 12分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...