看好了，这才是7家大模型做高考数学题的真实分数。

2,287 0 0

文章摘要

最近，许多媒体都在讨论使用AI进行高考测试的话题。尽管最初并不打算参与这一讨论，但在看到一些关于AI进行数学考试的测试方法后，发现这些方法存在明显的不合理之处。测试方法的公正性和严谨性成为了核心关注点。为了提供一个更为客观和公平的测试结果，决定按照自己的规则进行测试，以展示AI在数学能力上的真实表现。

测试选择了2025年数学全国一卷作为试卷，并制定了详细的测试规则。首先，不考解答题，因为解答题的评分标准难以统一。其次，所有题目都通过LaTeX编辑器转换成LaTeX文本格式，以确保数学符号的精确表达，避免多模态识图带来的误差。此外，剔除了单选题第6题，因为该题包含图表，转换后可能产生理解歧义。单题计分方法严格按照高考判分原则执行，每道题都会使用大模型跑3遍，以最大程度减少幻觉带来的误差。

测试模型包括OpenAI o3、Gemini 2.5 pro、DeepSeek R1、豆包（1.5-thinking-pro）、元宝（混元T1）、千问3（235B）、讯飞星火X1等推理模型。测试在凌晨2点开始，持续到凌晨4点，最终得出了每个模型的考试结果。Gemini 2.5 Pro在所有题目中表现最为出色，没有一题出错。豆包、混元、星火位列第二梯队，DeepSeek半对半错了一个多选题，排名第五，而Qwen3和OpenAI o3因为填空题的错误，排名垫底。

通过这次测试，可以得出几个关键结论。首先，AI在数学能力上的表现已经非常接近人类，尤其是在逻辑推理和计算方面。其次，测试方法的公正性和严谨性对结果的影响非常大，不合理的测试方法可能导致误导性的结论。最后，AI在高考数学测试中的表现已经与2023年有了显著提升，许多之前被认为难以解决的问题，现在AI已经能够轻松应对。

这次测试不仅仅是为了得出一个分数，更是为了探讨如何进行一次合格的AI考试。规则公正、流程严谨、技术中立，是确保测试结果真实可靠的关键。通过这次测试，希望能够为未来的AI测试提供一个参考标准，减少博眼球的夸张，增加对真相的执着。严谨的测试方法不仅能够让我们更接近真实，也能够让我们更加自由。