国产端侧小模型超越 GPT-4V，「多模态」能力飞升

AIGC动态2年前 (2024)发布 aitechtalk

4,853 0 0

文章摘要

【关键词】 具身智能、ICRA会议、AI模型、端侧应用、多模态能力

在近日的机器人学术会议ICRA 2024上，具身智能成为了热议话题，其中具身智能的应用，特别是AI大模型在消费级机器人领域的应用，引发了一个普遍的疑问：应该首先让模型适配终端，还是让终端适配模型？文章探讨了这一议题。

过去一年中，随着6B、7B等小模型的快速发展，以及MoE训练技术的日益成熟，AI模型在手机、学习机、平板电脑、机器人甚至汽车等终端应用上的可能性越来越大。这已成为一个清晰的行业趋势，但在系统整合上，不同话语体系间的博弈成为挑战。

文章指出，以机器人为例，算法层关注的是模型的简化，而硬件厂商关心的是模型能否适配自身产品。消费机器人的固定产品周期和硬件底层的芯片限制是模型适配的主要难题。此外，多模态能力成为了端侧大模型的关键需求。

在这种背景下，文章提出了未来端侧大模型爆发的三大要素：满足产品形态与适配芯片的需求、具备多模态模型能力、在产品研发的长周期中保持价格优势。然而，能够兼顾这三者的团队寥寥无几。

文章特别提到了面壁智能发布的端侧多模态模型MiniCPM-Llama3-V 2.5，该模型在OCR能力、手机端突破、多语种支持等方面表现出色，甚至在多模态能力上超越了谷歌的Gemini Pro和OpenAI的GPT-4V。这一突破不仅体现了面壁智能在端侧模型的快速发展，也反映了其在实现更宏大AGI愿景上的努力。

文章最后强调了多模态模型在“识别”与“推理”能力上的重要性，并以MiniCPM-Llama3-V 2.5为例，展示了其在建筑图识别推理、手机图片信息提取、学术论文图表分析等方面的应用案例，表明了其在端侧模型领域的领先地位。