4人团队斩获首届AI奥数竞赛百万大奖!AI破解29题陶哲轩惊呆,CMU华人博士荣登第二

AIGC动态2周前发布 AIera
88 0 0
4人团队斩获首届AI奥数竞赛百万大奖!AI破解29题陶哲轩惊呆,CMU华人博士荣登第二

 

文章摘要


【关 键 词】 AI奥数Numina模型数学推理竞赛奖金技术发展

首届AI奥数竞赛结果揭晓,Numina模型以29/50的正确率荣获第一名,远超其他参赛模型。该竞赛由Kaggle社区举办,旨在提升AI模型的数学推理能力,奖金池高达1000万美元。比赛题目涵盖简单算术、代数、集合推理等方面,难度介于AMC 12和AIME之间,需要运用高中水平的数学知识。

Numina团队由四人组成,分别来自不同机构。团队成员Jia Li是Numina公司的联合创始人,Lewis Tunstall和Edward Beeching均来自Hugging Face,专注于人类反馈强化学习(RLHF)的研究。另一位成员Hélène Evain也参与了模型的开发。第二名获得者是来自CMU的博士生Zhiqing Sun(孙之清),他独立完成了比赛并答对了22道题目。

本次竞赛共有1401名参与者,1161个团队,提交了1831份模型结果。根据排名,前五名团队将获得不同数额的奖金。第一名将获得131,072美元,第二名65,536美元,第三名32,768美元,第四名16,384美元,第五名8,192美元。如果前五名团队在公开和私有测试集上的得分未能超过Gemma 7B的3/50基准,奖金将减少至原来的四分之一。

尽管GSM8K等基准测试在评估AI模型性能方面具有一定参考价值,但数据泄露问题可能影响评估的准确性。本次竞赛采用了Kaggle的私有测试集模式,共准备了110道题,包括训练集10道、公共测试集50道和私有测试集50道,以确保评估的公正性。

Numina团队表示,他们的模型并非从头开始搭建,而是在开源的LLM基础上进行微调,以提升数学推理能力。未来,他们计划公开模型、数据集和构建方法,以促进AI数学推理技术的发展。

总的来说,首届AI奥数竞赛展示了AI模型在数学推理领域的潜力,同时也暴露出现有评估方法的局限性。随着技术的不断进步,未来AI在数学领域的应用前景将更加广阔。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 1858字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...