文章摘要
【关 键 词】 AI、色盲测试、视觉认知、格式塔心理学、多模态模型
AI在色盲测试中的表现引发了对其视觉认知能力的深入思考。尽管现代多模态AI能够精准识别颜色甚至描述细微色差,却在经典的色盲测试图中屡屡失败。实验显示,Gemini 3 Pro将”45″误判为”74″,Claude Opus 4.5输出错误答案”8″,国产模型同样表现不佳。唯一答对的GPT-5.2采用代码作弊手段,通过数字掩膜技术强行识别。这种矛盾现象揭示了一个根本问题:AI处理视觉信息的方式与人类存在本质差异。
《像素、模式,但缺少诗意》论文通过图灵视力测试(TET)发现,当前AI视觉系统存在结构性缺陷。Grad-CAM热力图显示,AI的注意力机制呈现”摊大饼式”分布,无法像人类那样聚焦关键特征。ViT视觉编码器将图像切割为16×16像素块的分析方式,导致其陷入局部细节而丧失整体把握能力。这种”先切碎再拼凑”的工作模式,使得AI在需要格式塔(完形)认知的任务中表现糟糕——它能准确计算每个像素值,却无法理解这些像素组合产生的涌现意义。
人类视觉系统采用完全不同的处理路径。格式塔心理学揭示的”整体大于部分之和”原则,体现在人类能瞬间将颜色相近的点组织成有意义图案的能力。测试图中的棕色点被自动识别为数字”45″,绿色点则被视为背景噪音,这种自上而下的认知模式包含主动的特征整合与噪音过滤机制。对比实验显示,当展示家具局部特写时,人类会自然追问全局图像;而AI却停留在碎片化分析层面,这种差异在色盲测试中表现得尤为明显。
研究进一步发现,当AI无法从视觉模式中提取有效信息时,会转向记忆库寻找相似答案。“74”这个错误答案的高频出现,源于维基百科上石原测试标准图的数字标注,暴露出AI依赖数据记忆而非真正理解的本质。这种现象与此前AI难以准确计数手指的案例具有相同底层逻辑:在缺乏整体认知框架时,AI会退回到模式匹配的原始策略。
视觉认知差异折射出智能本质的深层思考。人类通过意识建构主观色彩体验,将物理波长转化为有意义的颜色感知;而AI虽然掌握精确的色彩数据,却无法产生审美体验。论文标题中的”诗意”隐喻,正是指向这种理解世界的整体性智慧——包括价值判断、注意力分配和意义创造等核心能力。当前AI在模仿人类感知方面取得的进展令人瞩目,但距离真正的视觉理解,仍缺少关键的能力跃迁。
原文和模型
【原文链接】 阅读原文 [ 4176字 | 17分钟 ]
【原文作者】 数字生命卡兹克
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



