AI的七窍打通了！谷歌发布Gemini Embedding 2原生多模态嵌入模型

70 0 0

文章摘要

谷歌正式发布了名为 Gemini Embedding 2 的新型基础架构，实现了 AI 像人类一样用五种感官同步感知世界。这个系统将文字、图像、视频、音频和文档数据全部整合到了一个统一的处理维度里。 以往依靠多套独立程序来回转换拼接的旧工作流迎来了终结，系统构建了一个能够同时接收五大类信号的超级中枢接收器。各类不同格式的数据现在可以直接输入系统并被原生摄入，系统对文本的处理容量达到了 8192 个 Token，自带超过 100 种语言的跨语种语义理解能力。每次请求系统最多可以同时处理 6 张静态图像，长达 128 秒的高清视频文件也能直接送入模型进行拆解分析，还能够直接摄入长达 80 秒的音频数据，办公场景中最常见的文档也被纳入了直读范围。

新模型带来了被称作交错输入的核心机制，可以把一段文字描述、一张实体照片和一段环境录音打包在一起，一次性全部发送给系统。产生这些跨越式体验的基础是统一嵌入空间技术。在这个全维度图书馆里，所有的信息载体都被转化成了一串串纯粹的数字坐标，因为表达同一个事实概念，被极其精准地存放在了同一个虚拟书架上。为了让庞大系统运行得更经济，工程师融入了套娃表示学习机制，信息在这个机制下就像俄罗斯套娃一样被一层一层巧妙地嵌套打包。开发者完全可以根据自己的存储空间和预算，把输出维度灵活缩减到 1536、768 甚至 128 维，即使剥去最外层的套娃把维度降到极低的水平，信息质量的实质损失也微乎其微。底层架构的完全统一带来了立竿见影的运行效率提升，与传统的多套模型串联方案相比，整体系统的响应延迟大幅降低了 70%。

构建检索增强生成系统是当下最务实的高频应用场景，拥有了全维度的架构加持，生成内容的整体事实准确性变得更高，提供的上下文背景也变得前所未有地充实。智能世界的未来走向需要长期的跨载体记忆能力。Agent 需要依靠这些数字坐标系统作为自身的通用语义记忆层，无论是万能的数字生活助手，还是企业级的专业管理软件，它们终于能够在同一个频道上共享对世界的认知。新技术在海量信息筛选与管理中很有潜力，在信息检索任务中，系统可以根据极简的一段提问，瞬间锁定全网语义最贴近的历史文档。系统还能利用相似度得分给搜索结果重新排列优先级，把最有价值的信息推送到最前端。在异常值检测任务中，系统可以轻松比对庞大的数据集，并找出极度罕见的孤立偏离事件，根据内容特征自动执行情感走向分类或是拦截垃圾信息变得轻而易举。