是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

AI-Agent8个月前发布 almosthuman2014

1,496 0 0

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

文章摘要

智谱开源的 GLM – 4.5V 模型是一款极具实力的开源视觉推理模型，在多领域展现出卓越性能。
– 超强视觉推理与图像识别：GLM – 4.5V 参加“图寻”游戏全球积分赛，击败 99.99%的人类玩家，展现出超强视觉推理能力。它能自动识别图片细微线索并推理，可处理复杂图表、多图长文本等任务。在图像识别方面，面对含视觉错觉、人物遮挡和细节干扰的图片，能快速锁定有效特征精确识别，还能通过风景或街景图片准确推测地点及经纬度，在字符识别与文字理解上也表现出色，对不完全和模糊条件下的图片也能准确判断。
– 出色的视频理解能力：在视频理解上，GLM – 4.5V 表现非凡。对不同时长的视频，如机器人视频、电视剧片段、演讲视频等，不仅能整体描述，还能捕捉细节、理解视频含义，准确回答相关问题，能精确定位特定时间点的动作细节，还可复制画面中的 PPT，为学习场景提供有力支持。
– 前端复刻能力：该模型能根据截图或视频精准解析视觉内容，生成高质量、结构化、可交互的网页代码。无论是简单的网站图片，还是复杂的网站视频，都能进行有效的前端复刻，虽在复杂界面的内容还原上有一定差距，但整体表现出色，展现了卓越的跨模态理解和推理能力。
– 文档处理与视觉定位：在处理带有大量图表的文件时，GLM – 4.5V 能充分提取明确信息，理解图表背后的数据逻辑和趋势变化，为不便使用云端服务的用户提供本地化选择。其视觉 grounding 能力强，能准确理解图像内容，识别并定位指定特征的人或宠物，还能完成需要深入思考的任务。在 Agent 任务中，能准确理解屏幕界面元素，具备作为 Agent 应用底层模型的核心能力基础。
– 技术与行业意义：GLM – 4.5V 拥有 106B 总参数、12B 激活参数，支持 64K 多模态长上下文。其视觉编码器和语言解码器采用先进技术，训练采用三阶段策略，在 41 个公开视觉多模态榜单中综合效果达开源 SOTA 水平。当前模型竞争从跑分转向实战，GLM – 4.5V 的开源为开发者提供了优异的多模态基础模型，推动行业从性能竞赛转向实用价值创造。