有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击

AI-Agent2年前 (2024)发布 Si-Planet

8,344 0 0

有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击

文章摘要

【关键词】 Google I、O 2023、人工智能、Gemini模型、Project Astra、AI视觉模型

在Google I/O 2023上，Google展示了其在人工智能领域的一系列重要更新和新功能，以应对OpenAI等竞争对手的挑战。以下是对文章内容的详细摘要：

1. Gemini模型的更新：Google CEO Sundar Pichai强调了Gemini模型的重要性，该模型已成为Google内部的统一核心。Gemini 1.5的长文本版本正式发布，上下文长度达到200万token，远超之前的100万token。此外，还推出了针对端侧的Gemini 1.5 Flash模型，以及更高级别的订阅服务Gemini Advanced，包括实时无延迟与AI互动的Gemini Live功能。

2. Project Astra：Google Deepmind CEO Hassabis介绍了Project Astra，这是一个仍在研发中的AI Agent，能够理解和响应复杂的动态世界，记住所见所闻以理解上下文并采取行动。Astra展示了其视觉记忆功能，能够回答用户关于之前未见物品的问题。

3. 视觉模型Veo：Google发布了Veo，这是一个比Sora更强的视觉模型，能够生成超过一分钟的高质量1080p视频，涵盖多种电影和视觉风格。

4. Google搜索的AI化改造：Google对搜索功能进行了重大更新，推出了AI生成的搜索答案总结，根据用户问题进行调整。此外，Google搜索还能根据用户的问题提供规划建议，并展示不同卡片的信息流。

5. 全家桶的AI能力提升：Google展示了如何利用Gemini模型提升其全家桶产品的功能，例如通过“Ask Photo”功能与照片进行对话，以及在Workspace中使用基于多模态能力的教学工具。

6. Android对Gemini的使用：在Android中，Gemini能够实时识别诈骗电话并弹出警告框，阻止电话的继续进行。

7. 其他发布：Google还发布了Gemini 1.5 Flash，这是一个更快、更经济的轻量化推理模型，适用于多种任务。同时，Gemini 1.5 Pro也迎来了重大升级，包括200万上下文、更强大的推理和理解能力。

总的来说，Google在Google I/O 2023上展示了其在AI领域的深度整合和创新，旨在通过Gemini模型改造其产品和服务，以应对竞争对手的挑战，并继续吸引和保留用户。