历史性时刻!Google Veo 3杀疯了,AI视频终于不再是“哑巴”

AIGC动态2天前发布 admin
267 0 0
历史性时刻!Google Veo 3杀疯了,AI视频终于不再是“哑巴”

 

文章摘要


【关 键 词】 AI视频生成技术突破创新应用音画同步

谷歌在今年的I/O大会上发布了一系列重磅AI产品,其中最引人注目的是DeepMind推出的Veo 3视频生成模型。Veo 3的突破性在于它将AI视频生成直接带入了有声时代,不仅能够自动生成画面,还能一键生成配音、音效、环境音,甚至根据提示词自动生成对白。DeepMind CEO Demis Hassabis在现场表示,用户现在可以用自然语言直接描述角色、场景,并指定对白和语气,AI能够根据这些描述精准还原视频内容。

Veo 3的核心技术在于“音画同步”,AI能够理解每一帧画面的内容,实时生成并同步不同场景的声音。例如,在一场打雷的夜戏中,Veo 3能够自动识别闪电和雨点,生成精准的雷声和环境音,并根据镜头变化调整音效强度。这一技术的背后是DeepMind去年开始的“视频转音频”AI研究,通过多模态数据训练模型,实现了自动生成配乐的功能。

尽管AI生成视频技术取得了显著进展,但行业仍面临滥用和恶意篡改的挑战。DeepMind强调,所有Veo 3生成的视频都会使用自研的SynthID技术,在每一帧嵌入不可见的水印,以提升防伪和追溯能力。这一举措显示了谷歌在风控方面的重视。

除了Veo 3,谷歌还发布了图像生成模型Imagen 4,该模型在表现精细细节(如复杂织物和动物毛发)方面具有“惊人的清晰度”,并且在生成写实和抽象图像方面表现出色。Imagen 4在渲染字体方面也有显著提升,并能以多种宽高比生成分辨率高达2K的图像。

为了更好承载这些模型的能力,谷歌推出了新应用Flow,Flow将Veo、Imagen和Gemini融合在一起,用于创作电影级片段和场景。用户可以用自然语言描述他们想要的最终效果,Flow会自动生成相应的内容。目前,这一新工具仅对美国的Google AI Pro和Ultra订阅用户开放。

技术的快速进化正在打破创作的门槛,人人都可以成为自己的导演。然而,这种变化也带来了新的机会和挑战。十年前,普通人难以想象能够随手生成自己的电影,而今天,AI已经能够根据一句话生成完整的视频内容。这种技术进步不仅为创作者提供了独特的机会,也引发了关于旧规则和岗位被推翻的讨论。

总的来说,谷歌在I/O大会上展示的AI技术标志着视频生成领域的一次重大飞跃。Veo 3的音画同步技术、Imagen 4的图像生成能力以及Flow的整合应用,共同推动了AI在创意领域的进一步普及。未来,随着技术的不断演进,AI将在更多领域展现出其强大的潜力。

原文和模型


【原文链接】 阅读原文 [ 1227字 | 5分钟 ]
【原文作者】 AI产品阿颖
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...