全球140+模型考试出炉！超8万道考题国产模型分数亮眼，智源评测体系发布

AIGC动态2年前 (2024)发布 AIera

2,090 0 0

文章摘要

智源研究院于2024年5月17日推出了一套科学、权威、公正、开放的大模型评测体系，并对全球140余个大模型进行了全方位能力评测。评测从主观和客观两个维度进行，考察语言模型的七大能力，包括简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观，以及多模态模型的多模态理解和生成能力。

在中文语境下，国内头部语言模型的综合表现接近国际一流水平，但能力发展存在不均衡。字节跳动豆包Skylark2和OpenAI GPT-4在语言模型主观评测中表现突出，位列前两名。客观评测中，OpenAI GPT-4和百川智能Baichuan3位居前列。

在多模态生成领域，OpenAI DALL-E 3在文生图评测中位列第一，智谱华章CogView3和Meta-Imagine紧随其后。文生视频评测中，OpenAI Sora、Runway、爱诗科技PixVerse等位列前五。然而，评测发现文生图模型的客观评测指标与主观感受差异较大，排名主要以主观评测为准。

此外，智源研究院联合海淀区教师进修学校，首次对大模型进行了K12学科测试，发现模型在综合学科能力上与人类学生平均水平有差距，尤其在文理科目上存在明显差异。

为了更准确地评价文生视频模型，智源研究院与中国传媒大学共建了主观评价体系，从图文一致性、真实性、视频质量、美学质量四大方面进行评分。

智源评测体系依托科技部与工信部的项目支持，联合多家高校和机构研发评测方法与工具。智源研究院还牵头成立了IEEE大模型评测标准小组P3419，参与大模型标准建设。评测采用统一规则与多重校验打分相结合的方法，使用20余个数据集、超8万道考题，确保了评测的科学性、权威性、公正性和开放性。

智源研究院院长王仲远表示，未来智源将继续共建完善评测体系，促进模型性能优化和产业落地，推动大模型技术应用的有序发展。