文章摘要
【关 键 词】 视频生成、多模态融合、短剧工业化、音画同步、全模态强化
SkyReels V4凭借在文本生成视频(含音频)任务中获得第三方机构Artificial Analysis盲评全球第一的成绩,标志着国产AI视频模型首次站上世界顶端,其表现超越谷歌Veo 3.1与Kling 3.0。该模型的核心优势体现在四位一体技术架构:多模态参考、音视频联合生成、统一任务框架及全模态强化学习。其中,多帧参考能力支持最多9张关键帧输入,显著提升角色一致性与场景连贯性,有效解决传统AI视频中“换脸”与“跳场景”两大顽疾;音视频联合生成机制则确保人物口型、语音节奏与画面动作高度同步,大幅降低“AI味”。在功能层面,SkyReels V4不仅支持文本、图像、视频与音频等多模态输入,还整合生成、修复与编辑任务于同一框架下, 实现“一站式视频编辑”,包括元素添加(如为角色佩戴指定帽子)、动作协同(新角色镜像原动作跳舞)与干扰物清除(去字幕、水印、路人等),极大简化专业后期流程。
技术突破方面,模型通过引入全模态强化学习与阶梯式课程训练机制,系统性修正“画面合理但逻辑错误”与“角色记忆缺失”两大历史问题——前者要求模型同时评估视觉真实性、物理合理性与音画对齐度,后者依托关键帧锚定实现跨镜头角色稳定复现。这一演进使SkyReels V4从工具级生成器升级为“短剧工业化生产引擎”。其商业化落地已形成闭环验证:支撑昆仑万维旗下DramaWave平台实现月活超8000万、年化流水逾4.8亿美元;AI自制剧月产能超30部,单部成本可低至2万美元而日投高达10万美元,典型作品《掠夺词条!我转职为亡灵天灾》播放量达数百万次. 同时,SkyReels V4与音乐大模型Mureka协同构成覆盖画面与声音的全链路创作底座,赋能广告、MV、教育视频等多场景即时生成。昆仑万维自2025年初起以平均每3–4个月一代的速度迭代模型版本,从V1到V4持续补强关键短板,配合Skywork系列大模型与算力布局, 构建起覆盖“算力—模型—应用”的完整AGI生态体系。未来规划聚焦延长生成时长(30秒+)、增强实时交互编辑能力及深化API开放与工具链集成,进一步推动AI视频创作向专业影视标准靠拢。
原文和模型
【原文链接】 阅读原文 [ 3576字 | 15分钟 ]
【原文作者】 新智元
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★★☆☆☆



