当大模型开始「考上」一本

AIGC动态2年前 (2024)发布 geekpark

3,938 0 0

文章摘要

2024年高考期间，九个大型人工智能模型参加了河南使用的难度最高的新课标Ⅰ卷考试，以评估它们的智力水平。这些模型包括GPT-4o、豆包、文心4.0等，涵盖了国内外知名公司和新兴企业的产品。测试结果显示，大模型在文科特别是英语科目中表现优异，平均分高达132分，接近满分。然而，在数理学科方面，它们的表现明显不足，大多数模型在数学和理综科目中得分较低。

具体来看，GPT-4o在文科中得分最高，达到562分，超过河南一本线41分。豆包和文心4.0的文科成绩也超过了一本线。尽管在理科方面，表现最好的文心4.0仍低于一本线30多分，但大模型的理科成绩足以进入二本院校。

在语文科目中，大模型的客观题表现良好，但在作文方面存在不足。尽管部分作文得分较高，但普遍缺乏深度和创意，套路化明显。英语科目中，大模型在客观题上几乎满分，但在应用文写作和读后续写部分存在一些问题，如字数不足、内容空泛等。

数学成为衡量大模型能力的重要分水岭。尽管大模型在处理自然语言方面表现出色，但在数学等逻辑严密的科目上，它们的能力仍有待提高。这表明大模型在理解和应用复杂数学概念方面存在局限，需要进一步优化和改进。

综上所述，大模型在2024年高考中的表现显示出它们在文科特别是英语科目中具有较高水平，但在数理学科上仍有较大差距。这为今后大模型的发展方向和优化提供了有益的参考。同时，这也提醒我们，在人工智能技术迅速发展的今天，仍需关注和加强人类在逻辑思维和创新能力方面的培养。