GPT-5.2已上线24小时:差评如潮!
文章摘要
【关 键 词】 GPT-5.2、用户评价、基准测试、情感智能、安全机制
OpenAI最新发布的GPT-5.2模型在官方宣传中被称为”迄今为止在专业知识工作上最强大的模型系列”,并在多项基准测试中刷新了SOTA水平。然而,用户反馈却呈现显著反差,大量批评集中在模型的情感智能缺失、过度安全审查以及实际应用表现不佳等问题上。
在性能测试方面,GPT-5.2的表现引发争议。SimpleBench测试结果显示,其得分不仅低于Claude Sonnet 3.7这样的旧模型,甚至未能显著超越前代GPT-5。这个专门检测常识推理能力的测试暴露出模型在时空推理、社会常识等基础认知能力上的缺陷。类似情况也出现在LiveBench测试中,GPT-5.2的得分落后于竞争对手Opus 4.5和Gemini 3.0。更令人意外的是,在简单的字母计数问题(如”garlic有几个r”)上,GPT-5.2出现明显错误,而其他主流模型却能正确应答。
编程能力测试同样显示出问题。虽然GPT-5.2 Extended Thinking能生成功能正常的交通灯模拟代码,但视觉效果远逊于Claude Opus 4.5的作品。在ASCII艺术创作测试中,GPT-5.2生成的蒙娜丽莎图像被评价为”抽象”,与前代GPT-4o相比呈现明显退步。
情感智能方面的缺陷尤为突出。模型在应对用户情绪倾诉时出现严重失误,例如对”恐慌发作”的回应竟是”很高兴听到这个消息”。在处理敏感话题时,GPT-5.2机械执行安全准则的表现被形容为”情感智能的灾难级展示”。典型案例包括:用生物学术语回应宠物丧失的儿童,以及给出可能加剧人际冲突的出轨应对建议。相比之下,GPT-4o在相同情境下能更好地平衡理性与共情。
安全机制过度强化也引发广泛批评。模型频繁以内容审查为由拒绝无害请求,包括学术论文转录和历史人物分析等。用户抱怨这种”教会老太太式”的审查严重限制了使用体验,甚至出现”将成年人当幼儿园小孩对待”的情况。有观点指出,OpenAI为迎合企业市场需求而牺牲了普通用户的使用自由。
这些现象引发了对AI评估标准的深层思考。当模型在基准测试中表现优异却在实际应用中频频失误时,暴露出当前评估体系与现实需求的脱节。专业人士警告,过度追求测试指标可能导致AI沦为”更快的计算器”,而丧失真正理解人类语境的能力。多位用户强调,智能若无人性化理解作为基础,其技术进步将只是”空洞的颂扬”。这种争议也反映出AI发展面临的本质矛盾:在提升专业性能的同时,如何保持与人类情感和常识的衔接。
原文和模型
【原文链接】 阅读原文 [ 2773字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




