国内外140+大模型、8万+考题测评结果出炉！智源评测体系出品

AIGC动态2年前 (2024)发布 QbitAI

1,995 0 0

文章摘要

智源研究院于2024年5月17日推出了一项科学、权威、公正、开放的大模型评测体系，并发布了国内外140余个语言及多模态大模型的全方位能力评测结果。该评测从主观、客观两个维度对语言模型和多模态模型进行了考察。

在中文语境下，评测结果显示国内头部语言模型的综合表现已接近国际一流水平，但存在能力发展不均衡的问题。国产模型在图文问答任务上表现出色，与开闭源模型平分秋色。在文生图能力上，国产模型与国际一流水平差距较小，而在文生视频能力上，Sora和PixVerse等模型表现突出。

语言模型主观评测中，字节跳动豆包Skylark2和OpenAI GPT-4在中文语境下位居前两位，显示出国产大模型对中国用户需求的深入理解。客观评测中，OpenAI GPT-4和百川智能Baichuan3领先。在多模态理解模型评测中，阿里巴巴通义Qwen-vl-max和上海人工智能实验室InternVL-Chat-V1.5表现优异。

此外，智源研究院联合海淀区教师进修学校，首次对大模型进行了K12学科测试，发现模型在综合学科能力上与人类学生平均水平有差距，尤其在人文学科的文化内涵理解、图表能力及理科题目解答方面。

针对视频生成模型的主观评价，中国传媒大学智能媒体计算实验室负责人史萍教授提出，需构建系统化的主观评价体系，以评价生成视频的真实性、图文语义一致性等。

智源评测体系依托科技部与工信部的项目支持，联合多家高校和机构研发评测方法与工具。智源研究院还牵头成立了IEEE大模型评测标准小组P3419，参与国家标准建设，并采用了客观评测与主观评测相结合的方法。本次评测使用了20余个数据集、超8万道考题，严格校准打分标准，降低主观偏差。

智源研究院致力于推动大模型技术应用的有序发展，院长王仲远表示，未来将继续共建完善评测体系，优化模型性能，推动其在多元复杂场景下的产业落地。