历史性时刻！Google Veo 3杀疯了，AI视频终于不再是“哑巴”

2,656 0 0

文章摘要

谷歌在今年的I/O大会上发布了一系列重磅AI产品，其中最引人注目的是DeepMind推出的Veo 3视频生成模型。Veo 3的突破性在于它将AI视频生成直接带入了有声时代，不仅能够自动生成画面，还能一键生成配音、音效、环境音，甚至根据提示词自动生成对白。DeepMind CEO Demis Hassabis在现场表示，用户现在可以用自然语言直接描述角色、场景，并指定对白和语气，AI能够根据这些描述精准还原视频内容。

Veo 3的核心技术在于“音画同步”，AI能够理解每一帧画面的内容，实时生成并同步不同场景的声音。例如，在一场打雷的夜戏中，Veo 3能够自动识别闪电和雨点，生成精准的雷声和环境音，并根据镜头变化调整音效强度。这一技术的背后是DeepMind去年开始的“视频转音频”AI研究，通过多模态数据训练模型，实现了自动生成配乐的功能。

尽管AI生成视频技术取得了显著进展，但行业仍面临滥用和恶意篡改的挑战。DeepMind强调，所有Veo 3生成的视频都会使用自研的SynthID技术，在每一帧嵌入不可见的水印，以提升防伪和追溯能力。这一举措显示了谷歌在风控方面的重视。

除了Veo 3，谷歌还发布了图像生成模型Imagen 4，该模型在表现精细细节（如复杂织物和动物毛发）方面具有“惊人的清晰度”，并且在生成写实和抽象图像方面表现出色。Imagen 4在渲染字体方面也有显著提升，并能以多种宽高比生成分辨率高达2K的图像。

为了更好承载这些模型的能力，谷歌推出了新应用Flow，Flow将Veo、Imagen和Gemini融合在一起，用于创作电影级片段和场景。用户可以用自然语言描述他们想要的最终效果，Flow会自动生成相应的内容。目前，这一新工具仅对美国的Google AI Pro和Ultra订阅用户开放。

技术的快速进化正在打破创作的门槛，人人都可以成为自己的导演。然而，这种变化也带来了新的机会和挑战。十年前，普通人难以想象能够随手生成自己的电影，而今天，AI已经能够根据一句话生成完整的视频内容。这种技术进步不仅为创作者提供了独特的机会，也引发了关于旧规则和岗位被推翻的讨论。

总的来说，谷歌在I/O大会上展示的AI技术标志着视频生成领域的一次重大飞跃。Veo 3的音画同步技术、Imagen 4的图像生成能力以及Flow的整合应用，共同推动了AI在创意领域的进一步普及。未来，随着技术的不断演进，AI将在更多领域展现出其强大的潜力。