AI成绩单背后，藏着一位华人“出题人”

54 0 0

文章摘要

随着前沿大语言模型能力的快速提升，传统的MMLU等基准评测逐渐面临“旧考卷失灵”的困境，前沿模型准确率逼近满分，难以有效区分模型间的真实能力差距。为解决这一问题，加拿大滑铁卢大学助理教授陈文虎及其创立的“老虎实验室”推出了MMLU-Pro。该评测通过扩展选项数量、增加推理类问题并清理低区分度题目，显著降低了模型靠猜测蒙对的概率。测试结果表明，MMLU-Pro不仅让模型准确率下降16%到33%，还大幅减少了不同提示词风格下的成绩波动，成功重新拉开了模型间的能力差距。

在多模态模型评估领域，陈文虎团队进一步推出了MMMU和MMMU-Pro基准。多模态模型需要同时处理图像、文本及专业学科知识，而不仅仅是描述图片内容。MMMU涵盖了六大领域的万余道专业问题，测试显示即便是当时最强的闭源模型准确率也仅在56%到59%之间，揭示了多模态模型在专业理解和推理方面仍有巨大提升空间。随后的MMMU-Pro则通过引入纯视觉设置和过滤纯文本题目，有效防止了模型绕过视觉信息直接猜测答案的漏洞，确保模型必须具备真实的视觉与文本综合推理能力。

这些高质量评测基准的诞生，与陈文虎长期深耕复杂信息理解和知识推理的研究背景密切相关。他在谷歌DeepMind参与Gemini模型研发的经历，使其对前沿模型的能力边界和评估盲区有着深刻认知。老虎实验室不仅专注于基准评测，还积极参与视频理解、生成与编辑等模型系统研究，深刻践行了“不做题的出题人不可能出好题”的理念。通过亲自下场研发模型，团队能够更精准地设计出暴露模型缺陷的评估题目。目前，陈文虎已加入Meta超级智能实验室，继续致力于多模态预训练数据与评估工作，这也折射出华人学者在AI核心技术环节的深度融合与关键贡献。