上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升

AIGC动态2年前 (2024)发布 QbitAI

5,229 0 0

文章摘要

上海交通大学与上海AI实验室合作提出了一种新的框架——Long-CLIP，旨在解决CLIP模型在处理长文本时的不足。CLIP模型通过对齐视觉和文本模态，具备强大的zero-shot泛化能力，广泛应用于多模态任务中。然而，CLIP在长文本处理方面存在限制，其文本输入长度被限制在77个token，有效长度不足20个token，这限制了其在细粒度任务中的应用。

为了克服这一限制，研究人员提出了Long-CLIP模型，并采用了两大策略：保留知识的位置编码扩充和加入核心属性对齐的微调策略。通过这些策略，Long-CLIP能够支持更长的文本长度，同时提升在各个任务上的性能。

在位置编码扩充方面，研究者们发现CLIP的不同位置编码训练程度不同，因此提出了一种策略，保留前20个位置编码，对剩余的位置编码以更大的比率进行插值。这种方法在支持更长文本的同时，显著提升了模型性能。

在微调策略方面，研究者们引入了核心属性对齐策略，通过主成分分析（PCA）算法从图像特征中提取核心属性，并与概括性的短文本进行对齐。这要求模型不仅能够包含更多细节，还能识别并建模最核心的属性。

Long-CLIP在图文检索任务中表现出色，无论是短文本还是长文本检索任务，召回率都有显著提升。此外，Long-CLIP还能够用于图像生成任务，突破77个token的限制，实现篇章级别的图像生成，或在77个token内建模更多细节，实现细粒度图像生成。

总结来说，Long-CLIP通过扩展CLIP模型的长文本处理能力，显著提升了图像检索任务的性能，并能够在图像生成等下游任务中即插即用。这一进展不仅提升了多模态任务的细粒度处理能力，也为未来的研究和应用开辟了新的可能性。相关的论文和代码已经公开，供学术界和开发者进一步研究和应用。