开源音视频同步SOTA基座：极简的单流架构，2秒出片

52 0 0

文章摘要

daVinci-MagiHuman是由上海创智学院（SII）生成式人工智能研究实验室（GAIR）与Sand.ai联合发布的开源音视频生成基础模型，旨在解决当前开源生态中生成质量、多语言支持与推理效率之间的平衡难题。该系统采用极简的单流Transformer架构，仅需2秒即可在1张H100显卡上生成5秒高精度音视频同步内容，显著优于传统多流方案。

<强>其核心创新在于彻底摒弃跨模块交织设计，将文本、视频和音频Token统一嵌入共享权重的序列中，全部通过自注意力机制实现端到端联合去噪。这一设计避免了独立交叉注意力模块与外挂融合组件，使嘴唇动作与发音在底层自然对齐，无需额外协调。>

<强>模型结构上，40层网络采用三明治式分层策略：首尾4层专用于模态边界处理，核心32层实现深度多模态融合；同时移除显式时间步嵌入，让网络自发推断去噪状态，并引入逐头门控机制增强数值稳定性与表达能力。条件注入被压缩至同一潜变量空间，支持纯文本或静态图像驱动的口型动画生成，消解任务特化模块依赖。>

<强>在视听交融层面，系统强化人形角色的自然表现力，实现情感微表情与肢体律动的语义同步；支持中文普通话、粤语、英文、日文等七种语言的精准发音还原，且具备向更多语种扩展的能力。超分辨率阶段全程维持潜空间操作，利用三线性插值与局部注意力控制开销，在保证画面清晰的同时，持续绑定音频信息以确保唇形匹配精度。>

<强>极致提速方面，模型结合轻量涡轮解码器、全图PyTorch编译器融合算子及DMD-2蒸馏技术，大幅降低推理延迟；基础256p生成仅耗时1.6秒，整套流程总时长为2秒；提升至1080p最高画质时，全流程用时亦控制在38.4秒内。所有测试均基于1张H100显卡完成，展现优异的硬件适配性与工程可行性。>

<强>性能对比显示，daVinci-MagiHuman在VideoScore2视觉评分与文本对齐指标上分别取得4.80与4.18的最优成绩；语音清晰度以14.60%词错误率远超其他开源模型；人类盲测胜率达80%，显著超越Ovi 1.1与LTX 2.3。该成果为开源社区提供了一个兼具速度、质量与可扩展性的通用创作底座，推动音视频生成进入新阶段。>

原文和模型

【原文链接】 阅读原文 [ 3133字 | 13分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★★

阿里云百炼

大模型服务平台是阿里云基于通义大模型等多种大模型的一站式大模型开发平台。

上一篇
准确率轻松翻倍！不烧钱微调，AI靠“写日记”实现能力跃升

下一篇
华为给 Mate 装了风扇，但这次不是为了打游戏

相关文章

这个真人版《火影忍者》竟然是AI做的，来自中国AI视频新王者Vidu Q3

量子位

463

刚刚，创智+模思发布开源版Sora2，电影级音视频同步生成，打破闭源技术垄断

 机器之心

596

硅谷豪赌算力烧到停电，中国团队反向出击！这一刀，直接砍碎Scaling Law

新智元

360

与DeepSeek-OCR不谋而合，NeurIPS论文提出让LLM像人一样读长文本

 机器之心

564

突发！DeepSeek刚刚开源V3.1-Base

AIGC开放社区

1,301

微软Phi-4家族新增两位成员，5.6B多模态单任务超GPT-4o，3.8B小模型媲美千问7B

机器之心

2,630

暂无评论

再想想

暂无评论...

Trac-AI IDE

星辰Agent

讯飞文书-办公助手

热门网址
Textideo
Vopal AI
易元AI
AI GEO 增长引擎（盖立克思）
热门文章

AI发布首个全球科学家社区爆火，硅谷投资圈：科技研究领域的「谷歌地图」来了！

2周前
604

马斯克惊叹，首个赛博果蝇活了！多行为大脑完整上传，自主驱动数字躯壳

2周前
543

所有用OpenClaw的朋友，我都劝你先装上这个能保命的Skill。

2周前
476

第一个同时为人类和Agent设计的AI视频产品，它叫，LibTV。

6天前
380

“OpenClaw 前30贡献的文科生”还是“刷量骗子”？我们和杨天润聊了聊

2周前
359

OpenAI 黑客松冠军、英伟达 CES 幕后，都在用同一个 3D 工具

2周前
332

OpenClaw 3.12来了：UI大翻新，模型提速，更耐造更安全

2周前
331

AGI焦点｜陈天桥投的AI产品登顶Github，中国00后小孩哥开发

2周前
319