5分钟AI长视频不翻车!国产开源框架杀到全球第一梯队

AI-Agent2小时前发布 QbitAI
89 0 0
5分钟AI长视频不翻车!国产开源框架杀到全球第一梯队

 

文章摘要


【关 键 词】 视频生成长视频京东开源记忆驱动智能导演

当前AI视频生成领域在长视频制作上面临角色一致性差、生成速度慢及修改成本高等瓶颈,限制了其规模化商业应用。针对这些行业痛点,京东团队开源了长音视频生成框架JoyAI-Echo,旨在推动长视频生成技术向实际生产工具演进。该框架通过跨模态音视频记忆库、记忆驱动后训练、轻量化实时超分以及Director Agent等核心技术,全面提升了长视频生成的稳定性、效率与可控性。

在解决角色和声音前后不一致的问题上,JoyAI-Echo引入了跨模态音视频记忆库。该机制通过提取并绑定人物的视觉与声音特征,在后续生成中持续调用关键身份信息,从而确保数分钟长视频内角色外观与音色的高度一致。 为提升生成效率,框架采用了记忆驱动后训练流程,结合监督微调、人类反馈强化学习与分布匹配蒸馏技术,在不牺牲质量的前提下将推理速度提升了约7.5倍。同时,轻量化实时超分技术将超分能力直接融入生成链路,仅需一次向前推理即可输出高分辨率的视频与音频,实现了高清输出与低延迟的兼顾。

为满足复杂影视制作的迭代需求,JoyAI-Echo配备了Director Agent智能导演系统。该系统支持自然语言交互,能够自动将需求拆解为剧本与镜头规划,并在发现偏差时仅对受影响的局部镜头进行重生成,避免了全局推倒重来,确保了故事连贯性。 评测数据显示,JoyAI-Echo在跨镜头一致性、语音准确率等指标上表现优异,在画面、音频质量及IP一致性等维度的用户盲测偏好均显著领先于行业主流模型。

JoyAI-Echo的开源标志着长视频生成技术正从技术演示迈向真实生产环境。 其提供的高一致性、低延迟与可交互迭代能力,为虚拟叙事、数字人助手及实时内容创作等场景提供了可靠的技术底座,进一步加速了AI长视频生产范式的升级与行业生态的开放迭代。

原文和模型


【原文链接】 阅读原文 [ 3633字 | 15分钟 ]
【原文作者】 量子位
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★★

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...