剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器

AIGC动态1年前 (2024)发布 almosthuman2014

1,993 0 0

剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器

文章摘要

剑桥大学信息工程系人工智能实验室最近开源了首个预训练、通用多模态后期交互知识检索器PreFLMR。该模型基于Fine-grained Late-interaction Multi-modal Retriever (FLMR)并进行了改进和大规模预训练，旨在解决多模态大模型在回答知识密集型问题时的不足。PreFLMR是一个通用预训练模型，能够处理文文检索、图文检索和知识检索等多个子任务，并在私有数据上稍加训练后获得极佳的领域专用模型表现。

PreFLMR在多模态知识检索中具有优势，因为它在字符级别上编码问询和文档，保留了细粒度信息，而传统的密集文本检索（DPR）则将所有信息压缩至一维向量，导致细粒度信息损失。PreFLMR能够根据用户输入的指令从庞大的知识库中提取相关文档，帮助多模态大模型提升专业知识问答任务的表现。

剑桥大学团队开源了三个不同规模的模型：PreFLMR_ViT-B (207M)、PreFLMR_ViT-L (422M)、PreFLMR_ViT-G (2B)。此外，项目还开源了一个训练和评估通用知识检索器的大规模数据集M2KR，包含10个检索子任务和超过百万的检索对。论文中，剑桥大学团队对比了不同大小、不同表现的图像编码器和文本编码器，总结了扩大参数和预训练多模态后期交互知识检索系统的最佳实践。

PreFLMR的预训练包括文本编码器预训练、图像-文本投射层预训练、持续预训练和通用检索训练。实验结果显示，使用ViT-G作为图像编码器和ColBERT-base-v2作为文本编码器的PreFLMR模型在7个M2KR检索子任务上取得了优异表现。在知识密集型视觉问答任务上，使用PreFLMR进行检索增强大大提高了最终系统的表现。

总之，PreFLMR模型是第一个开源的通用后期交互多模态检索模型，经过在M2KR上的百万级数据预训练，在多项检索子任务中展现出强劲的表现。M2KR数据集、PreFLMR模型权重和代码可以在项目主页获取。