标签:长视频

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

智源研究院与上海交通大学等机构联合发布了新一代超长视频理解模型Video-XL-2,该模型在长视频理解领域取得了显著进展。长视频理解是多模态大模型的关键能力...

单卡也能跑万帧!智源发布Video-XL-2,速度、效果、长度全拉满

智源研究院近日发布了新一代超长视频理解模型Video-XL-2,该模型在长视频理解任务中表现出色,显著提升了多模态大模型对长视频内容的理解能力。Video-XL-2在M...

万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

长视频理解作为多模态大模型的关键能力之一,尽管OpenAI GPT-4o和Google Gemini等私有模型已取得显著进展,但开源模型在效果、计算开销和运行效率等方面仍存...

CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术

视频理解技术旨在准确把握视频中的时空信息,但面临着短视频片段的时空冗余和复杂时空依赖关系的双重挑战。传统的三维卷积神经网络(CNN)和视频Transformer...

用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

这篇文章介绍了腾讯和复旦大学研究团队提出的创新性AI生成框架MovieLLM,旨在解决长视频理解的挑战。长视频的分析与理解一直是一个难题,因为缺乏高质量、多...

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

在2024年世界经济论坛上,图灵奖得主Yann LeCun提出了视频模型应该在抽象表征空间中进行预测的观点。本文研究者基于最优传输理论,提出了一种鲁棒的长视频学...