阿里通义万相AI生视频震撼上线！更懂中国风的大模型来了

AIGC动态2年前 (2024)发布 AIera

4,007 0 0

文章摘要

阿里巴巴集团近期推出了一款名为通义万相的AI视频生成工具，该工具在阿里云栖大会上由CTO周靖人宣布正式上线。通义万相AI视频功能专为中国市场设计，能够理解中文语境和中国风格，提供5秒长、每秒30帧、720P分辨率的视频生成服务。该工具的特点是能够生成与视频画面匹配的音效，采用了阿里自研的视觉大模型，并使用了Diffusion+Transformer的核心架构，这是一种结合了图像逐步降噪和文本上下文信息处理的技术。

通义万相的AI视频生成工具在手机端App上提供无限次数的免费使用，而PC端用户每天登录可以获得50个灵感值，用于生成10次视频。与国外同类产品相比，通义万相的优势在于其免费、无限次数使用，且不需要排队等待。

用户可以通过输入提示词来控制视频内容和变化过程，AI能够根据提示词生成具有想象力的视频，并自动配上背景音乐。工具在语义理解、画面动态、风格泛化能力以及中国元素的呈现方面表现出色，能够准确呈现复杂的提示词元素，并有机地结合不同元素。

在运动生成方面，通义万相展现了强大的能力，能够生成复杂和大幅度的运动，并真实地还原物理规律。此外，该工具还具备风格泛化能力，可以根据风格提示词生成响应的视频画面，提供影视级的画面质感和细节表现。

通义万相还具备音频生成功能，能够生成与视觉内容高度匹配的声音特效，实现音画同步，增强沉浸感。工具的灵感扩写能力也是其独特卖点之一，能够将简单的提示词扩写成更丰富的内容，提升生成效果。

在图生视频功能方面，通义万相能够根据用户提供的图片和创意描述生成视频，保持与原图的高度一致性，并展现出丰富的想象力。

技术层面，通义万相背后的全自研视觉生成大模型采用了中英文双语标注，强化了中文长文本理解能力，并对中文内容和元素提供了更好的原生支持。这种生成方式在计算效率上具有优势，减少了计算量并提高了生成速度，使得通义万相能够在短时间内生成高质量视频。

通义万相的应用场景广泛，可以为电商、广告创意、自媒体、影视/动画制作等领域的创作者提供灵感来源。阿里巴巴集团鼓励用户试用这款无限次数免费续的AI视频生成工具。