看好了,这才是7家大模型做高考数学题的真实分数。

AIGC动态3天前发布 admin
199 0 0
看好了,这才是7家大模型做高考数学题的真实分数。

 

文章摘要


【关 键 词】 AI高考数学测试模型

最近,许多媒体都在讨论使用AI进行高考测试的话题。尽管最初并不打算参与这一讨论,但在看到一些关于AI进行数学考试的测试方法后,发现这些方法存在明显的不合理之处。测试方法的公正性和严谨性成为了核心关注点。为了提供一个更为客观和公平的测试结果,决定按照自己的规则进行测试,以展示AI在数学能力上的真实表现。

测试选择了2025年数学全国一卷作为试卷,并制定了详细的测试规则。首先,不考解答题,因为解答题的评分标准难以统一。其次,所有题目都通过LaTeX编辑器转换成LaTeX文本格式,以确保数学符号的精确表达,避免多模态识图带来的误差。此外,剔除了单选题第6题,因为该题包含图表,转换后可能产生理解歧义。单题计分方法严格按照高考判分原则执行,每道题都会使用大模型跑3遍,以最大程度减少幻觉带来的误差。

测试模型包括OpenAI o3、Gemini 2.5 pro、DeepSeek R1、豆包(1.5-thinking-pro)、元宝(混元T1)、千问3(235B)、讯飞星火X1等推理模型。测试在凌晨2点开始,持续到凌晨4点,最终得出了每个模型的考试结果。Gemini 2.5 Pro在所有题目中表现最为出色,没有一题出错。豆包、混元、星火位列第二梯队,DeepSeek半对半错了一个多选题,排名第五,而Qwen3和OpenAI o3因为填空题的错误,排名垫底。

通过这次测试,可以得出几个关键结论。首先,AI在数学能力上的表现已经非常接近人类,尤其是在逻辑推理和计算方面。其次,测试方法的公正性和严谨性对结果的影响非常大,不合理的测试方法可能导致误导性的结论。最后,AI在高考数学测试中的表现已经与2023年有了显著提升,许多之前被认为难以解决的问题,现在AI已经能够轻松应对。

这次测试不仅仅是为了得出一个分数,更是为了探讨如何进行一次合格的AI考试。规则公正、流程严谨、技术中立,是确保测试结果真实可靠的关键。通过这次测试,希望能够为未来的AI测试提供一个参考标准,减少博眼球的夸张,增加对真相的执着。严谨的测试方法不仅能够让我们更接近真实,也能够让我们更加自由。

原文和模型


【原文链接】 阅读原文 [ 1457字 | 6分钟 ]
【原文作者】 数字生命卡兹克
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...