昆仑万维多模态视频生成开源，影音图文全统一

571 0 0

文章摘要

昆仑万维开源的SkyReels-V3通过统一的多模态上下文学习框架，在单一模型中实现了参考图像生成视频、视频持续扩展以及音频驱动的虚拟数字人三大核心功能。该模型摒弃了针对单一任务训练单一模型的传统做法，采用统一的架构原生支持高质量图像到视频转换、长视频智能扩展及精准对口型说话人视频生成，为开源社区提供了强大的视频生成研究基座。

模型的核心创新在于其多模态情境下的统一生成能力。SkyReels-V3构建了能够同时处理视觉参考、视频片段、音频流和文本提示的统一架构，通过大规模图像和视频混合训练，使模型既能生成静态画面的精美质感，又能模拟符合物理规律的动态效果。多分辨率联合优化策略的引入让模型能适应不同空间尺度和宽高比，保证画面原始构图美感。统一的多参考条件策略允许用户输入多达四张参考图像，模型能将这些图像中的信息与文本提示联合编码，实现对主体外观和背景结构的精确把控。

在性能评估方面，SkyReels-V3在参考一致性、视觉质量等关键维度上超越了Kling 1.6和PixVerse V5等知名模型，综合表现处于行业前沿。其成功得益于精心设计的数据处理流水线，包括跨帧配对策略、图像编辑模型深度加工和多重过滤步骤，确保训练数据的高质量。这使得模型不仅能保持极高的人物和物体一致性，还能处理复杂的动态交互和多主体互动场景。

视频扩展功能展现了模型对电影级镜头语言的理解。SkyReels-V3支持单镜头扩展和镜头切换扩展两种模式，能生成长达30秒的720p高清视频，并理解专业电影技法如正反打、切离等剪辑模式。通过统一的多片段位置编码和分层训练，模型生成的视频不仅画质高清，剪辑逻辑也符合电影语法，有效避免了身份漂移或背景突变问题。

在音频驱动的虚拟数字人方面，模型采用视听对齐策略和区域掩码技术，确保唇形与音频紧密同步，支持多种语言、语速及歌唱等复杂输入。其先定骨架再填血肉的策略提高了长视频的时间稳定性，多人场景的交互生成功能使对话场景更加真实自然。与主流模型对比，SkyReels-V3在视觉质量上达到行业最高水平，在视听同步和角色一致性上也表现出色。

SkyReels-V3的创新在于将多种先进技术融合于单一模型，解决了传统模型常见的物理崩坏和时序不一致问题，为内容创作提供了完整、可控且高质量的生产工具。从电商广告到影视制作，该模型展现了广泛的应用潜力，其开源属性将进一步推动视频生成技术的发展。