大模型追逐星辰大海,GPT和Gemini国际天文奥赛夺金

大模型追逐星辰大海,GPT和Gemini国际天文奥赛夺金

 

文章摘要


【关 键 词】 人工智能大模型天文学竞赛评估科研能力

大型语言模型在国际天文学和天体物理学奥林匹克竞赛(IOAA)中展现出接近或超越人类金牌选手的卓越表现。最新研究以2022-2025年IOAA试题为基准,系统评估了GPT-5、Gemini 2.5 Pro等模型在复杂科学问题求解中的能力。该研究突破了传统天文学AI评估局限于选择题和简答的范式,首次将奥赛级别的理论推导、数据分析和跨学科整合能力纳入测评体系。

理论考试中,GPT-5以84.2%的平均分领先所有模型,在2022年试题中更达到93%的惊人准确率。其表现呈现反常识特征:难题准确率反而高于简单题,这与试题数量分布、几何推理失误的集中性以及概念性错误的偶发性密切相关。Gemini 2.5 Pro在2024年以83%的得分夺冠,但所有模型在几何/空间类问题上的表现均显著弱于物理/数学类,平均差距达18个百分点。值得注意的是,Claude系列模型在理论考试中落后领先模型13-17个百分点,揭示出现有模型在复杂推理能力上存在显著分层。

数据分析环节凸显了多模态能力的决定性作用。GPT-5凭借图像解析优势取得88.5%的平均分,较其理论成绩提升4.3个百分点,而其他模型在该环节普遍下降10-15分。这种分化源于数据分析题对光变曲线解读、图表推理等视觉认知能力的高要求。错误分析显示,概念误解占理论考试错误的42%,几何推理失误占31%;数据分析中则呈现计算错误(28%)、图像误读(25%)和绘图缺陷(22%)的三足鼎立格局。

与人类选手对比显示,主流LLM在排除观测环节的情况下均达到IOAA金牌标准,GPT-5更在三届比赛中超越当年最佳人类选手成绩。研究特别指出,现有评估框架如AstroBench过于侧重知识回忆,难以反映真实科研场景的需求。为此,论文提出构建包含多模态数据处理、跨学科整合和创造性问题解决的新型评估体系,这对推动AI向科研级智能体进化具有关键意义。该成果不仅证明大模型在天体物理领域的应用潜力,更为AI参与前沿科学探索提供了方法论层面的重要参考。

原文和模型


【原文链接】 阅读原文 [ 2272字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...