顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤

顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤

 

文章摘要


【关 键 词】 大模型视觉能力多模态评测集认知差距

大模型在纯视觉任务上的表现远低于人类儿童水平。UniPat AI与红杉中国xbench团队联合发布的BabyVision评测集揭示,当前最先进的多模态大模型在基础视觉能力上仅相当于3岁幼儿水平。Gemini3-Pro-Preview作为表现最佳模型,其49.7%的准确率仍显著低于6岁儿童20个百分点,开源模型表现更差,Qwen3VL-235B-Thinking仅达22.2%。这种差距不是单一能力缺陷,而是系统性基础视觉能力不足,涉及精细辨别、视觉追踪、空间感知和模式识别四大类共22种子任务。

评测设计严格排除语言捷径,聚焦“无法语言化”的视觉原子能力。研究团队从4000张候选图片中精选388道题目,每道题都经过双盲质检确保答案必须通过纯视觉推理得出。典型题目如垃圾分类连线题,人类儿童能本能追踪路径,而模型虽然生成长篇推理却仍接反路线。当视觉信息被压缩成语言符号时,关键细节会丢失,这解释了模型在四类挑战中的失败:非语言细节观察、路径追踪、空间想象和图形规律归纳。

生成式视觉推理展现出改进潜力。BabyVision-Gen实验让模型通过绘制图像作答,在280道题目测试中发现生成式方法更接近人类解题行为,如实际描画路径而非语言描述。虽然当前生成模型仍无法稳定给出正确答案,但这种”视觉落地”方式为突破语言局限提供了新方向。

这项研究对AI发展具有根本性启示。现实世界的智能应用需要超越语言提示的基础视觉理解,从具身智能到工业检测,依赖的是人类三岁前就已掌握的视觉原子能力。BabyVision通过量化这些能力差距,为多模态模型发展提供了明确的改进坐标,其方法论也树立了严谨评测的新标准——从儿童认知科学汲取灵感,建立跨学科的数据构建与验证流程。该团队将持续更新评测集,推动AI在细粒度辨别、轨迹追踪、三维重构等核心视觉能力上的突破。

原文和模型


【原文链接】 阅读原文 [ 2688字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...