单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

AIGC动态3天前发布 QbitAI
116 0 0
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

 

文章摘要


【关 键 词】 长视频开源模型多模态高效处理应用潜力

智源研究院与上海交通大学等机构联合发布了新一代超长视频理解模型Video-XL-2,该模型在长视频理解领域取得了显著进展。长视频理解是多模态大模型的关键能力之一,尽管OpenAI GPT-4o和Google Gemini等私有模型已在该领域取得了一定成就,但开源模型在效果、计算开销和运行效率方面仍存在明显不足。Video-XL-2通过多维度优化,显著提升了开源多模态大模型对长视频内容的理解能力。

Video-XL-2在长视频理解任务中表现出色,在MLVU、Video-MME、LVBench等主流评测基准上达到了同参数规模开源模型的领先水平。新模型显著扩展了可处理视频的时长,支持在单张显卡上高效处理长达万帧的视频输入,并且大幅提升了处理效率,编码2048帧视频仅需12秒,显著加速了长视频理解流程。

在模型架构设计上,Video-XL-2主要由三个核心组件构成:视觉编码器、动态Token合成模块(DTS)以及大语言模型(LLM)。视觉编码器采用SigLIP-SO400M对输入视频进行逐帧处理,DTS模块对视觉特征进行融合压缩并建模其时序关系,最终通过大语言模型实现对视觉内容的理解与推理。训练策略上,Video-XL-2采用了四阶段渐进式训练,逐步构建其强大的长视频理解能力。

Video-XL-2还系统性设计了效率优化策略,包括分段式的预装填策略和基于双粒度KV的解码机制,显著降低了预装填阶段的计算成本与显存开销,并大幅提升了解码效率。得益于这些优化策略,Video-XL-2实现了在单张显卡上对万帧级视频的高效推理,显著增强了其在实际应用场景中的实用性。

在实验效果方面,Video-XL-2在MLVU、VideoMME和LVBench等主流长视频评测基准上全面超越现有所有轻量级开源模型,达成当前最先进性能(SOTA),相较第一代Video-XL实现了显著提升。在时序定位任务中,Video-XL-2也表现出色,进一步验证了其在多模态视频理解场景中的广泛适用性与实际价值。

Video-XL-2在视频长度方面展现出显著优势,在单张24GB消费级显卡上可处理长达千帧的视频,而在单张80GB高性能显卡上更支持万帧级视频输入,远超现有主流开源模型。此外,Video-XL-2在速度上也展现出卓越性能,其预填充时间与输入帧数之间呈现出近似线性增长,体现了其出色的可扩展性。

得益于出色的视频理解能力与对超长视频的高效处理性能,Video-XL-2在多种实际应用场景中展现出很高的应用潜力。例如,它可广泛应用于影视内容分析、剧情理解、监控视频中的异常行为检测与安全预警等任务,为现实世界中的复杂视频理解需求提供高效、精准的技术支撑。

原文和模型


【原文链接】 阅读原文 [ 1815字 | 8分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...