是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了

是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了

 

文章摘要


【关 键 词】 GLM4.5V视觉推理视频理解前端复刻开源模型

智谱开源的 GLM – 4.5V 模型是一款极具实力的开源视觉推理模型,在多领域展现出卓越性能。
超强视觉推理与图像识别:GLM – 4.5V 参加“图寻”游戏全球积分赛,击败 99.99%的人类玩家,展现出超强视觉推理能力。它能自动识别图片细微线索并推理,可处理复杂图表、多图长文本等任务。在图像识别方面,面对含视觉错觉、人物遮挡和细节干扰的图片,能快速锁定有效特征精确识别,还能通过风景或街景图片准确推测地点及经纬度,在字符识别与文字理解上也表现出色,对不完全和模糊条件下的图片也能准确判断。
出色的视频理解能力:在视频理解上,GLM – 4.5V 表现非凡。对不同时长的视频,如机器人视频、电视剧片段、演讲视频等,不仅能整体描述,还能捕捉细节、理解视频含义,准确回答相关问题,能精确定位特定时间点的动作细节,还可复制画面中的 PPT,为学习场景提供有力支持。
前端复刻能力:该模型能根据截图或视频精准解析视觉内容,生成高质量、结构化、可交互的网页代码。无论是简单的网站图片,还是复杂的网站视频,都能进行有效的前端复刻,虽在复杂界面的内容还原上有一定差距,但整体表现出色,展现了卓越的跨模态理解和推理能力。
文档处理与视觉定位:在处理带有大量图表的文件时,GLM – 4.5V 能充分提取明确信息,理解图表背后的数据逻辑和趋势变化,为不便使用云端服务的用户提供本地化选择。其视觉 grounding 能力强,能准确理解图像内容,识别并定位指定特征的人或宠物,还能完成需要深入思考的任务。在 Agent 任务中,能准确理解屏幕界面元素,具备作为 Agent 应用底层模型的核心能力基础。
技术与行业意义:GLM – 4.5V 拥有 106B 总参数、12B 激活参数,支持 64K 多模态长上下文。其视觉编码器和语言解码器采用先进技术,训练采用三阶段策略,在 41 个公开视觉多模态榜单中综合效果达开源 SOTA 水平。当前模型竞争从跑分转向实战,GLM – 4.5V 的开源为开发者提供了优异的多模态基础模型,推动行业从性能竞赛转向实用价值创造。

原文和模型


【原文链接】 阅读原文 [ 6113字 | 25分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...