标签:长视频
5分钟AI长视频不翻车!国产开源框架杀到全球第一梯队
当前AI视频生成领域在长视频制作上面临角色一致性差、生成速度慢及修改成本高等瓶颈,限制了其规模化商业应用。针对这些行业痛点,京东团队开源了长音视频生...
视频AI卷向5分钟:全量开源,一次生成,正式告别「盲盒抽卡」
当前AI视频生成技术在处理分钟级长视频时,常面临角色形象改变、声音不一致以及修改成本高昂等瓶颈,难以真正融入专业内容生产工作流。针对这一行业痛点,京...
从「会表演」到「更会演」:KlingAvatar2.0让数字人拥有生动灵魂
KlingAvatar2.0实现了数字人技术的重大突破,通过三大核心技术革新显著提升了虚拟角色的表现力。时空级联框架解决了长视频生成的连贯性问题,采用智能蓝图生...
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
智源研究院与上海交通大学等机构联合发布了新一代超长视频理解模型Video-XL-2,该模型在长视频理解领域取得了显著进展。长视频理解是多模态大模型的关键能力...
单卡也能跑万帧!智源发布Video-XL-2,速度、效果、长度全拉满
智源研究院近日发布了新一代超长视频理解模型Video-XL-2,该模型在长视频理解任务中表现出色,显著提升了多模态大模型对长视频内容的理解能力。Video-XL-2在M...
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
长视频理解作为多模态大模型的关键能力之一,尽管OpenAI GPT-4o和Google Gemini等私有模型已取得显著进展,但开源模型在效果、计算开销和运行效率等方面仍存...
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
视频理解技术旨在准确把握视频中的时空信息,但面临着短视频片段的时空冗余和复杂时空依赖关系的双重挑战。传统的三维卷积神经网络(CNN)和视频Transformer...
用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成
这篇文章介绍了腾讯和复旦大学研究团队提出的创新性AI生成框架MovieLLM,旨在解决长视频理解的挑战。长视频的分析与理解一直是一个难题,因为缺乏高质量、多...
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
在2024年世界经济论坛上,图灵奖得主Yann LeCun提出了视频模型应该在抽象表征空间中进行预测的观点。本文研究者基于最优传输理论,提出了一种鲁棒的长视频学...




