GPT-5.2已上线24小时：差评如潮！

AIGC动态3个月前发布 almosthuman2014

645 0 0

文章摘要

OpenAI最新发布的GPT-5.2模型在官方宣传中被称为”迄今为止在专业知识工作上最强大的模型系列”，并在多项基准测试中刷新了SOTA水平。然而，用户反馈却呈现显著反差，大量批评集中在模型的情感智能缺失、过度安全审查以及实际应用表现不佳等问题上。

在性能测试方面，GPT-5.2的表现引发争议。SimpleBench测试结果显示，其得分不仅低于Claude Sonnet 3.7这样的旧模型，甚至未能显著超越前代GPT-5。这个专门检测常识推理能力的测试暴露出模型在时空推理、社会常识等基础认知能力上的缺陷。类似情况也出现在LiveBench测试中，GPT-5.2的得分落后于竞争对手Opus 4.5和Gemini 3.0。更令人意外的是，在简单的字母计数问题（如”garlic有几个r”）上，GPT-5.2出现明显错误，而其他主流模型却能正确应答。

编程能力测试同样显示出问题。虽然GPT-5.2 Extended Thinking能生成功能正常的交通灯模拟代码，但视觉效果远逊于Claude Opus 4.5的作品。在ASCII艺术创作测试中，GPT-5.2生成的蒙娜丽莎图像被评价为”抽象”，与前代GPT-4o相比呈现明显退步。

情感智能方面的缺陷尤为突出。模型在应对用户情绪倾诉时出现严重失误，例如对”恐慌发作”的回应竟是”很高兴听到这个消息”。在处理敏感话题时，GPT-5.2机械执行安全准则的表现被形容为”情感智能的灾难级展示”。典型案例包括：用生物学术语回应宠物丧失的儿童，以及给出可能加剧人际冲突的出轨应对建议。相比之下，GPT-4o在相同情境下能更好地平衡理性与共情。

安全机制过度强化也引发广泛批评。模型频繁以内容审查为由拒绝无害请求，包括学术论文转录和历史人物分析等。用户抱怨这种”教会老太太式”的审查严重限制了使用体验，甚至出现”将成年人当幼儿园小孩对待”的情况。有观点指出，OpenAI为迎合企业市场需求而牺牲了普通用户的使用自由。

这些现象引发了对AI评估标准的深层思考。当模型在基准测试中表现优异却在实际应用中频频失误时，暴露出当前评估体系与现实需求的脱节。专业人士警告，过度追求测试指标可能导致AI沦为”更快的计算器”，而丧失真正理解人类语境的能力。多位用户强调，智能若无人性化理解作为基础，其技术进步将只是”空洞的颂扬”。这种争议也反映出AI发展面临的本质矛盾：在提升专业性能的同时，如何保持与人类情感和常识的衔接。