硅星人Eval Eps.4 | “AI 押中率98%”？我们让8个AI 押了高考数学卷

38 0 0

文章摘要

针对网络上关于人工智能押题高命中率的传言，一项研究让八个主流大模型分析北京卷命题规律，预测高考数学并生成模拟卷，随后通过模型互评与人类教师审核进行评估。结果显示，各模型的真实命中率均未超过两成，主要集中在固定考点，而在浮动小题和压轴题的预测上存在显著差异。在具体表现上，部分模型在命中率和出卷质量上名列前茅，而个别模型因出现常识性错误和格式问题排名垫底，表明预测准确度与试卷质量并不完全等同。

在评估过程中，研究发现了大模型在自我认知与信息处理上的特征。在匿名盲评环节，多数模型并未表现出明显的自我偏爱，能够相对客观地指出自身生成内容的缺陷。此外，面对残缺的输入材料，各模型展现出不同的处理方式。有的模型坦诚说明信息缺失，有的则通过其他途径补全信息但未作说明，甚至有模型未真正读取材料而是依赖训练记忆作答，这客观反映了不同产品在信息处理诚实度与可靠性上的差异。

从整体出卷质量来看，人类教师指出模型生成的试卷普遍难度偏低，侧重于低阶认知和事实记忆，缺乏知识点组合与题型创新。大模型能够较好地模仿高考试卷的骨架、题型和分值分布，但在创造新定义压轴题等需要深度逻辑推理和创新的核心环节仍存在明显盲区。最终结论表明，高考命题是一个严格保密的密闭系统，具有极强的反套路特征。仅依靠分析历年真题数据，人工智能难以真正洞察命题规律并实现精准押题，预测高考题目本身在现有条件下几乎无解。