文章摘要
随着前沿大语言模型能力的快速提升,传统的MMLU等基准评测逐渐面临“旧考卷失灵”的困境,前沿模型准确率逼近满分,难以有效区分模型间的真实能力差距。为解决这一问题,加拿大滑铁卢大学助理教授陈文虎及其创立的“老虎实验室”推出了MMLU-Pro。该评测通过扩展选项数量、增加推理类问题并清理低区分度题目,显著降低了模型靠猜测蒙对的概率。测试结果表明,MMLU-Pro不仅让模型准确率下降16%到33%,还大幅减少了不同提示词风格下的成绩波动,成功重新拉开了模型间的能力差距。
在多模态模型评估领域,陈文虎团队进一步推出了MMMU和MMMU-Pro基准。多模态模型需要同时处理图像、文本及专业学科知识,而不仅仅是描述图片内容。MMMU涵盖了六大领域的万余道专业问题,测试显示即便是当时最强的闭源模型准确率也仅在56%到59%之间,揭示了多模态模型在专业理解和推理方面仍有巨大提升空间。随后的MMMU-Pro则通过引入纯视觉设置和过滤纯文本题目,有效防止了模型绕过视觉信息直接猜测答案的漏洞,确保模型必须具备真实的视觉与文本综合推理能力。
这些高质量评测基准的诞生,与陈文虎长期深耕复杂信息理解和知识推理的研究背景密切相关。他在谷歌DeepMind参与Gemini模型研发的经历,使其对前沿模型的能力边界和评估盲区有着深刻认知。老虎实验室不仅专注于基准评测,还积极参与视频理解、生成与编辑等模型系统研究,深刻践行了“不做题的出题人不可能出好题”的理念。通过亲自下场研发模型,团队能够更精准地设计出暴露模型缺陷的评估题目。目前,陈文虎已加入Meta超级智能实验室,继续致力于多模态预训练数据与评估工作,这也折射出华人学者在AI核心技术环节的深度融合与关键贡献。
原文和模型
【原文链接】 阅读原文 [ 3108字 | 13分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★☆



