阿里重磅开源Qwen2-VL：能理解超20分钟视频，媲美GPT-4o！

2,111 0 0

文章摘要

阿里巴巴集团开源了其最新研发的视觉多模态模型 Qwen2-VL，这一模型在多项性能指标上超越了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等知名闭源模型，成为目前市场上领先的多模态模型之一。Qwen2-VL不仅支持中文、英文、日文、韩文等多种语言，还能在Apache 2.0协议下进行商业化应用，同时提供了API以助力开发者构建或增强多模态功能的生成式AI应用。

Qwen2-VL具备多项特色功能，包括理解长达20分钟的视频内容，并能够基于视频内容进行问答、对话和内容创作。此外，该模型还能够操作手机和机器人的视觉智能体，以及理解不同分辨率和长宽比的图片。在性能评估方面，Qwen2-VL的72B模型在大学题目、数学、文档表格多语言文字图像理解、通用场景问答、视频理解和Agent等多个方面进行了测试，结果显示其在大部分性能上超越了GPT-4o，尽管在综合大学题目上与GPT-4o仍有差距。7B模型的性能与GPT-4mini相当，尤其在文档理解和多语言文字理解方面达到了业界领先水平。

在模型架构上，Qwen2-VL实现了对原生动态分辨率的全面支持，能够处理任意分辨率的图像输入，并通过动态数量的tokens转换不同大小的图片。此外，Qwen2-VL还引入了多模态旋转位置嵌入（M-ROPE）技术，通过分解原始旋转嵌入为时间、高度和宽度三个部分，使模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息，从而提升了模型的多模态处理和推理能力。

阿里巴巴已经展示了Qwen2-VL在多个实际应用案例中的表现，如对视频内容的详细解读和基于视频内容的问答。用户可以向Qwen2-VL发送视频或图片，并基于内容进行提问，模型能够提供详细准确的回答。这些案例展示了Qwen2-VL在理解和处理多模态数据方面的强大能力，为AI领域的进一步发展和应用提供了新的可能性。