国内百模谁第一？清华14大LLM最新评测报告出炉，GLM-4、文心4.0站在第一梯队

AIGC动态2年前 (2024)发布 AIera

3,236 0 0

国内百模谁第一？清华14大LLM最新评测报告出炉，GLM-4、文心4.0站在第一梯队

文章摘要

【关键词】 大模型评测、SuperBench、语义评测、代码评测、智能体评测

在2023年的”百模大战”中，众多实践者推出了各类模型，包括原创和针对开源模型微调的模型，以及通用和行业特定的模型。为了合理评价这些模型的能力，清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架，旨在推动大模型技术、应用和生态的健康发展。2024年3月版《SuperBench大模型综合能力评测报告》正式发布，共包含了14个海内外具有代表性的模型。

评测结果显示，GPT-4系列模型和Claude-3等国外模型在多个能力上依然处于领先地位，而国内头部大模型GLM-4和文心一言4.0表现亮眼，与国际一流模型水平接近，且差距逐渐缩小。SuperBench评测体系包含语义、代码、对齐、智能体和安全等五个评测大类，28个子类。

在语义评测方面，Claude-3得分为76.7，位居第一；国内模型GLM-4和文心一言4.0超过GPT-4系列模型位居第二和第三位。在代码评测方面，GPT-4系列模型和Claude-3模型在代码通过率上明显领先，国内模型中GLM-4和文心一言4.0表现突出。在对齐评测方面，GPT-4网页版占据榜首，文心一言4.0和GPT-4 Turbo同分紧随其后，GLM-4位列第四。在智能体评测方面，Claude-3和GPT-4系列模型占据了前三甲，GLM-4在国内外模型中表现最好。在安全评测方面，文心一言4.0表现亮眼，力压GPT-4系列模型和Claude-3拿下最高分。

总体来说，国内外大模型在本能力下均表现欠佳，主要原因是智能体对模型要求远高于其他任务，现有的绝大部分模型还不具有很强的智能体能力。随着大模型研究的发展，对其性能重点的研究也在不断迁移，从语义评测到代码评测，再到对齐评测、智能体评测，以及未来的安全评测阶段，这些都是大模型能力评测的重要阶段。