不儿,这谁还能看出是AI演的视频啊

AIGC动态7小时前发布 QbitAI
58 0 0
不儿,这谁还能看出是AI演的视频啊

 

文章摘要


【关 键 词】 AI视频音画同步方言支持影视级多模态

火山引擎最新推出的豆包视频生成模型Seedance 1.5 Pro在FORCE原动力大会上亮相,其核心突破在于实现了音画高精度同步生成。该模型通过单一Prompt即可生成包含人物对白、背景音乐和音效的完整视频片段,演示案例中女子哭泣的影视级表演效果已接近真人水平,口型、眼神与台词情绪高度吻合。技术架构上采用原生音视频联合生成模式,通过MMDiT框架实现视觉流与听觉流在潜在空间的实时交互,从根本上避免了传统AI视频“声画两张皮”的缺陷。

在实际应用中,Seedance 1.5 Pro展现出三大核心能力:音画同步精度达到帧级匹配,测试中东方不败风格的武打场景里,指尖微蜷的杀意与冷笑台词完全同步;支持12种方言及多语言混合对话,四川话熊猫与西班牙语男孩的跨语种互动自然流畅;影视级运镜控制可复刻周润发百万级电影镜头,包括推拉、环绕等专业摄影手法。模型还创新性地引入Draft样片功能,通过低分辨率草稿预审将创作效率提升65%,无效成本降低60%。

技术层面披露的四大创新包括:双分支DiT架构实现跨模态通信、亿级音视频数据标注系统、针对微表情和声调的RLHF优化,以及10倍速的推理加速框架。评测数据显示,其在审美评分、运动连贯性和音画对齐等指标上均领先行业水平,尤其方言口型匹配准确度显著优于主流模型。目前该模型已登陆即梦AI、豆包APP及火山方舟平台,企业用户可通过API接入。

行业观察指出,AI视频生成正从技术演示转向实用化阶段,Seedance 1.5 Pro代表的新一代模型不再单纯追求分辨率提升,而是聚焦于创作流程的完整性和可用性。其原生多模态生成能力可能重塑短视频、广告片等内容的制作范式,使方言配音、复杂运镜等专业级制作变得大众化。随着Draft样片等流程优化工具的引入,AI视频已初步具备规模化商用条件,或将开启影视辅助创作的新纪元。

原文和模型


【原文链接】 阅读原文 [ 2711字 | 11分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...