轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

AIGC动态2年前 (2024)发布 QbitAI

2,976 0 0

轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

文章摘要

这篇文章介绍了上海AI Lab和香港中文大学等研究机构提出的InternLM-XComposer2-4KHD（IXC2-4KHD）模型，这是一个可以自动分析PDF、网页、海报、Excel图表内容的大模型。相比其他多模态大模型的分辨率限制，IXC2-4KHD将多模态大模型的最大输入图像提升到超过4K分辨率，并支持任意长宽比和336像素～4K动态分辨率变化。该模型在发布三天后就登顶Hugging Face视觉问答模型热度榜单第一。

研究人员通过实验展示了IXC2-4KHD在高分辨率图像理解任务中的出色表现。模型成功理解了复杂雷达图中的信息，并能够正确回答问题。在更极端分辨率的图像输入下，IXC2-4KHD也能轻松理解图像的各个部分，并准确说明每个部分包含的文字信息内容。在16项多模态大模型评测指标中，IXC2-4KHD在10项评测中取得了媲美甚至超越GPT4V和Gemini Pro的结果，展现了其泛用能力。

为了实现4K动态分辨率的目标，IXC2-4KHD包括了三个主要设计：动态分辨率训练、添加切块布局信息和推理阶段扩展分辨率。动态分辨率训练策略让模型适应任意分辨率的视觉输入，并在高分辨率图像理解任务中实现了性能提升。添加切块布局信息和推理阶段扩展分辨率也对模型性能有积极影响。研究人员计划提出更高效的策略以支持更高分辨率的图像输入。

总的来说，IXC2-4KHD模型的出现为打工人提供了方便，能够自动分析各种类型的图像内容，支持高分辨率图像输入，并在多项评测中表现优异。通过动态分辨率训练和其他设计，该模型展现了在高分辨率图像理解任务中的稳定性能提升和泛用能力。