Seedance 2.0之后，又一中国视频模型SkyReels-V4登上全球第二

57 0 0

文章摘要

近期中国AIGC领域大模型表现突出，Seedance 2.0凭借卓越性能跻身全球顶尖视频模型行列，昆仑天工SkyReelsV4同步发布，成为视频生成赛道的核心力量。截至2月25日，SkyReels V4在Artificial Analysis Arena基准测试的文本到音视频同步生成领域全球排名第二，算上尚未入榜的Seedance 2.0，二者均属于全球前三梯队。SkyReels V4是全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型，可融合文本、图像、视频片段和音频参考等多种输入形式。

它采用双流多模态扩散Transformer架构，以对称双分支骨干网络分别处理视频画面与音频，依托双向音视频交叉注意力机制、旋转位置编码技术实现音视频精准同步；通过冻结参数的多模态大语言模型作为统一文本编码器，避免文本指令在深层网络中被遗忘，整体遵循流匹配框架完成联合训练，确保视听内容连贯同步。

统一通道拼接技术是其核心突破之一，将噪声视频隐变量、条件参考帧、二进制掩码张量沿通道维度拼接，把生成、延展、修复、编辑等复杂任务转化为极简逻辑，还支持多模态上下文学习，可结合多种参考素材执行复杂组合指令。为破解长视频算力瓶颈，它采用低分辨率长序列加关键帧高分辨率生成的级联架构，搭配视频稀疏注意力机制，将注意力计算成本缩减至原来的三分之一，成功打通15秒电影级高画质长视频的算力壁垒。

在训练与评估层面，SkyReels V4通过阶梯式多阶段训练，结合真实授权数据与合成数据打磨性能，研发团队还推出涵盖五大核心维度的SkyReels-VABench评估基准。在专业盲测中，该模型在指令遵循、运动质量上优势突出，画面质感跻身行业顶尖，与Veo 3.1、Kling 2.6等主流模型相比，多数评价维度的好评率更高。