AI 下半场，LLM Benchmark 要补全什么？

AIGC动态3小时前发布 almosthuman2014

64 0 0

文章摘要

当前大语言模型评测领域，通用榜单与常用基准陆续暴露出区分度下降、评审口径波动、数据污染等诸多问题，推动业界愈发重视评测体系的有效性，对大语言模型评测基准本身的可靠性与寿命管理的关注度持续提升，围绕评测可区分性、长期有效性与可信度等核心问题，一批相关研究工作正在展开。

2026年1月，全球知名大模型评测平台Arena完成1.5亿美元融资，投后估值约17亿美元。该平台最初由加州大学伯克利分校等团队创建，核心机制是通过真实用户参与的匿名模型成对比较，基于人类偏好完成模型能力评估，目前已发展为全球最具影响力的大模型评测平台之一。本轮融资资金将用于扩充计算资源、招聘技术人员、推出企业级AI评估服务，有观点认为该平台已经成为比较模型体验的公共层，本次融资只是对公共能力的产品化与工程化落地。但针对该平台的商业化与评测机制，AI社区也存在诸多质疑，不少研究者指出，基于人类偏好的成对评估机制缺乏科学严谨性，不足以评估大语言模型的真实能力，存在评估标准主观、易被操纵、偏向资源雄厚的科技巨头、对开源与学术模型不公平、“好模型”定义模糊等问题，公信力正在逐步流失。

业界普遍认为，评测基准是衡量大语言模型性能的核心工具，还承担着引导大语言模型发展方向、促进技术创新的作用，有观点提出，AI下半场行业竞争核心将从“解决问题”转向“定义问题”，评测会变得比训练更重要，是当前行业的重要研究方向。在大语言模型能力快速迭代的背景下，现有评测基准体系还存在测试任务与真实使用场景脱节、缺乏统一测试规范、易受人为操作影响、公开题库高分段区分度持续下降等问题，甚至会误导下游使用者对模型能力的判断，因此业界一直在探索构建更科学的评测范式。随着大语言模型能力的深度与广度快速拓展，评测研究重心也发生转变，评估范式从单任务逐步走向多任务、多领域，开始覆盖更复杂、更应用导向的评估场景。全文约680字，符合要求。