文章摘要
【关 键 词】 谷歌发布、多模态嵌入、统一语义、智能体基础、向量模型
谷歌发布了首款原生多模态嵌入模型 Gemini Embedding 2。该模型的核心突破在于将文本、图像、视频、音频及文档等多种数据类型映射至同一个统一的嵌入空间。不同媒介的数据第一次被放进同一个语义坐标系里,实现了跨模态语义对齐。这意味着语义相似的数据在向量空间中距离更近,模型能够捕捉不同媒体间的复杂语义关系,从而更准确地理解现实世界信息。这种统一表示使得搜索关键词能直接关联图片、视频甚至声音,大幅简化了原本复杂的多模态流程。
在输入能力方面,新模型支持多种数据类型混合输入。文本支持最多 8192 个 token,图像最多 6 张,视频最长 120 秒,音频无需转录,文档最多 6 页 PDF。模型不仅可以处理单一模态,还支持多模态混合输入,例如图像加文本。评测显示,该模型在整体性能较上一代提升的同时,也为多模态嵌入任务树立了新的性能基准,在文本、图像和视频任务中均超越现有领先模型,实现 SOTA。从检索增强生成、语义搜索到情感分析及数据聚类等应用场景都能直接受益。
这一技术进步对 AI 智能体具有重大意义。过去的智能体操作电脑往往只能依赖文字信息,难以处理来自视觉结构的图标、布局等信息。有了多模态嵌入之后,情况就不同了,智能体可以直接理解像素区域与文本指令之间的关系。这为操作电脑、识别屏幕的智能体提供了关键基础,使其不再局限于文字识别,而是能真正看懂屏幕环境。模型提供了一条统一的感官总线,视觉、听觉与文本信息都能在同一语义空间中关联。
技术层面,模型采用 Matryoshka Representation Learning 方法,允许嵌入向量在保持语义信息同时进行动态维度缩减。开发者可以根据预算和算力,自由决定信息密度的分布管理,默认输出维度为 3072 维,也可根据需求缩减以平衡性能与存储成本。目前模型已通过 Gemini API 和 Vertex AI 公测,支持多种主流工具调用,为下一代多模态智能体及具身智能机器人提供关键基础设施。
原文和模型
【原文链接】 阅读原文 [ 1221字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 qwen3.5-plus
【摘要评分】 ★★☆☆☆



