让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

41 0 0

文章摘要

谷歌发布了首款原生多模态嵌入模型 Gemini Embedding 2。该模型的核心突破在于将文本、图像、视频、音频及文档等多种数据类型映射至同一个统一的嵌入空间。不同媒介的数据第一次被放进同一个语义坐标系里，实现了跨模态语义对齐。这意味着语义相似的数据在向量空间中距离更近，模型能够捕捉不同媒体间的复杂语义关系，从而更准确地理解现实世界信息。这种统一表示使得搜索关键词能直接关联图片、视频甚至声音，大幅简化了原本复杂的多模态流程。

在输入能力方面，新模型支持多种数据类型混合输入。文本支持最多 8192 个 token，图像最多 6 张，视频最长 120 秒，音频无需转录，文档最多 6 页 PDF。模型不仅可以处理单一模态，还支持多模态混合输入，例如图像加文本。评测显示，该模型在整体性能较上一代提升的同时，也为多模态嵌入任务树立了新的性能基准，在文本、图像和视频任务中均超越现有领先模型，实现 SOTA。从检索增强生成、语义搜索到情感分析及数据聚类等应用场景都能直接受益。

这一技术进步对 AI 智能体具有重大意义。过去的智能体操作电脑往往只能依赖文字信息，难以处理来自视觉结构的图标、布局等信息。有了多模态嵌入之后，情况就不同了，智能体可以直接理解像素区域与文本指令之间的关系。这为操作电脑、识别屏幕的智能体提供了关键基础，使其不再局限于文字识别，而是能真正看懂屏幕环境。模型提供了一条统一的感官总线，视觉、听觉与文本信息都能在同一语义空间中关联。

技术层面，模型采用 Matryoshka Representation Learning 方法，允许嵌入向量在保持语义信息同时进行动态维度缩减。开发者可以根据预算和算力，自由决定信息密度的分布管理，默认输出维度为 3072 维，也可根据需求缩减以平衡性能与存储成本。目前模型已通过 Gemini API 和 Vertex AI 公测，支持多种主流工具调用，为下一代多模态智能体及具身智能机器人提供关键基础设施。