谷歌推出V2A，可为视频大模型自动匹配语音

AIGC动态1年前 (2024)发布 AIGCOPEN

2,310 0 0

文章摘要

专注于AIGC领域的专业社区，关注微软、OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态。谷歌Deepmind在其官网推出了视频转音频模型V2A，用户可以通过视频和文本提示的方式，利用V2A为视频模型自动匹配语音。这一功能可以为紧张、恐怖、惊悚的片段自动生成合适的语音，从而节省制作时间并提高效率。V2A还可以与谷歌的视频模型Veo结合使用，进一步增强其功能。

目前，许多知名模型如Sora、可灵、Gen-3、Dream Machine等生成的视频没有任何声音，用户需要进行二次加工配音，这在嘴型和音轨匹配方面较为麻烦。V2A能够生成无限数量的音轨，用户可以根据实际需求选择最贴近的内容。例如，为一个骑马的牛仔视频配上音乐，提示词可以是“草原上夕阳西下时，悠扬柔和的口琴声响起”。

V2A的模型架构首先将视频和音频提示输入编码，生成初始的压缩表示。通过迭代的方式，扩散模型不断优化音频，使其与视觉信息和文本提示同步。这确保了生成的音频不仅具有高逼真度，还能准确反映视频中的场景和动作。最终，生成的音频被解码，转换为音频波形，并与视频数据结合。

为了提高音频质量并增加对特定声音生成的控制，V2A在训练过程中加入了多种训练数据，包括AI生成的详细音频描述和对话的转录。这些额外的注释使得V2A系统能够学习将特定的音频事件与各种视觉场景关联起来，并根据提供的注释或转录做出响应。这使得V2A在处理视频像素和生成音频时，不需要手动调整生成的声音与视频的对齐，从而避免了繁琐的声音、视觉和时间元素的调整，为生成逼真的音效奠定了坚实的基础。

此外，V2A在改进语音的口型同步方面进行了大量优化，会从视频输入和文字转录中抽取信息，生成初步的音频表示并通过扩散模型不断细化。为了进一步提升口型同步的准确性，V2A在训练过程中加入了更多的信息，包括AI生成的详细音频描述和对话转录。这不仅改善了语音与口型的同步，还提高了整体音频生成的质量。