昆仑万维开源的SkyReels-V3,把马斯克请来带货了
文章摘要
【关 键 词】 AI网红、视频生成、开源技术、多模态、虚拟形象
AI网红在社交平台上迅速崛起,手握品牌合作并坐拥百万粉丝,而许多用户并未意识到这些网红实际上是AI生成的。昆仑万维旗下的Skywork AI团队近期开源了SkyReels-V3多模态视频生成模型系列,涵盖参考图像转视频、视频延长和音频驱动虚拟形象三大核心能力,在单一建模架构中实现高保真多模态视频生成,达到业界领先水平。这一技术突破为虚拟IP的快速搭建和内容矩阵的批量生产提供了强大支持。
SkyReels-V3的参考图像转视频功能允许用户上传1-4张参考图像,配合文本提示词生成时间连贯、语义一致的视频。测试显示,该功能在电商应用场景中表现优异,能够精准保留人物面部特征和空间构图,并根据提示词编排叙事逻辑。例如,上传马斯克的照片和小象玩偶图后,生成的视频中马斯克面部特征保持高度一致,动作自然流畅,商品展示角度恰到好处。此外,模型还能同时处理多张完全不同的参考图,精准还原人物特征,保证整体风格统一。
视频延长功能可以将输入的视频片段延伸为更长内容,同时保持运动动态、场景结构和视觉风格的一致性。该功能支持单镜头延长和镜头切换延长两种模式。在单镜头延长模式下,模型能够准确把握微表情的变化节奏;镜头切换延长模式则支持切入、切出、多角度、正反镜头、切离五种专业转场,为视频创作提供了电影级的叙事工具。测试中,模型对专业摄影术语的理解准确,从瞄准动作到面部特写的过渡保持了叙事的连贯性,增强了画面张力。
虚拟形象模型可以从单张肖像图和音频片段生成音视频同步的视频,支持分钟级长度和多角色交互。测试表明,模型生成的唱歌MV中人物唇形与音频完全同步,画面稳定;在多人物互动场景中,模型能精准控制每个角色的开口时机,避免对不上口型的尴尬情况。该模型对真实人物、卡通角色等不同风格都具有良好的泛化能力。
SkyReels-V3的技术创新体现在多个方面。在参考图像转视频功能中,团队通过跨帧配对策略和图像编辑模型避免了传统方法中的伪影问题;视频延长模块采用双模式延长机制和统一的多分段位置编码方案;虚拟形象模型则聚焦于音视频精准对齐和关键帧约束生成机制。整体架构采用模块化设计理念,三大功能模块既可以独立使用,也能灵活组合,为不同应用场景提供适配空间。
昆仑万维在视频生成领域有着长期技术积累,此前已开源多个相关模型。SkyReels-V3的开源反映了AI视频生成领域的竞争态势,国内团队通过开源策略快速建立生态、获取反馈、迭代优化。随着技术壁垒逐渐被打破,AI视频生成的竞争正在进入更激烈的阶段。
原文和模型
【原文链接】 阅读原文 [ 3133字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



