文章摘要
【关 键 词】 视频大模型、音视频同步、技术突破、长视频生成、性能领先
近期中国AIGC领域大模型表现突出,Seedance 2.0凭借卓越性能跻身全球顶尖视频模型行列,昆仑天工SkyReelsV4同步发布,成为视频生成赛道的核心力量。截至2月25日,SkyReels V4在Artificial Analysis Arena基准测试的文本到音视频同步生成领域全球排名第二,算上尚未入榜的Seedance 2.0,二者均属于全球前三梯队。SkyReels V4是全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型,可融合文本、图像、视频片段和音频参考等多种输入形式。
它采用双流多模态扩散Transformer架构,以对称双分支骨干网络分别处理视频画面与音频,依托双向音视频交叉注意力机制、旋转位置编码技术实现音视频精准同步;通过冻结参数的多模态大语言模型作为统一文本编码器,避免文本指令在深层网络中被遗忘,整体遵循流匹配框架完成联合训练,确保视听内容连贯同步。
统一通道拼接技术是其核心突破之一,将噪声视频隐变量、条件参考帧、二进制掩码张量沿通道维度拼接,把生成、延展、修复、编辑等复杂任务转化为极简逻辑,还支持多模态上下文学习,可结合多种参考素材执行复杂组合指令。为破解长视频算力瓶颈,它采用低分辨率长序列加关键帧高分辨率生成的级联架构,搭配视频稀疏注意力机制,将注意力计算成本缩减至原来的三分之一,成功打通15秒电影级高画质长视频的算力壁垒。
在训练与评估层面,SkyReels V4通过阶梯式多阶段训练,结合真实授权数据与合成数据打磨性能,研发团队还推出涵盖五大核心维度的SkyReels-VABench评估基准。在专业盲测中,该模型在指令遵循、运动质量上优势突出,画面质感跻身行业顶尖,与Veo 3.1、Kling 2.6等主流模型相比,多数评价维度的好评率更高。
原文和模型
【原文链接】 阅读原文 [ 3994字 | 16分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 doubao-seed-1-8-251228
【摘要评分】 ★★★★☆



