南大团队直击大模型高分神话：人类90分，最强模型仅49分

71 0 0

文章摘要

现有大模型在各种预设的视频理解测试中分数日益饱和，但与用户感知的真实体验之间存在显著差距。南京大学的科研项目团队受 Google Gemini 测评团队邀约，正式发布了 Video-MME-v2 新版视频理解评测基准。该基准针对传统范式的潜在失真风险进行了改进，通过创新架构重新定义了对多模态智能能力的衡量标准。这项工作强调建立一套能够区分真正理解与机械命中率的精细化测试体系。经过近一年准备与大量人工介入，新版基准已确立为新一代视频智能评测的行业参考方案之一。

视频理解过程被重新拆解为一个包含三个逐层进阶能力的结构化体系。第一层聚焦基础的信息检索，旨在验证模型从跨越帧与模态数据中提取事实的能力；第二层考察时序逻辑，要求捕捉动作因果及状态变化的完整脉络；第三层对应高难度的复杂推理，模拟真实开放场景下的综合推断。为了匹配复杂的考核内容，系统引入了基于分组的一致性测试与首错截断的非线性打分策略，彻底摒弃了传统的独立每题计数模式。这种机制使得随机猜测获得的零星分数不再能通过平均分掩盖模型的缺陷，唯有整体表现出持续稳定的推理质量才能获得高分支撑。在数据建设方面，项目调集12名专业标注员和50名独立审核人员，历时三百多小时完成了八百个视频样本的质量管控。

实际测评结果表明，即便使用目前最先进的商用大模型，其组级表现依然远低于人类水准。研究人员发现，虽然平均准确率看似较高，但在非线性约束下，商业顶级模型的得分仅为人类的五成左右。视频理解的层层演进过程中性能衰减极为明显，提示当前算法在高阶推理上严重受制于底层的视觉特征抽取瓶颈。非线性评分占比指标揭示了中小规模模型普遍存在的稳定缺失问题，证明简单的数量叠加并不能转化为质的飞跃。关于推理能力增强的实验也显示出令人担忧的局限性，引入思考链机制往往依赖文本提示词作为锚点，在缺乏字幕的纯视觉环境下不仅无功而反还可能引发负向性能波动。这迫使业界重新审视模型对于非结构性数据的依赖程度。最终目标转向探索如何在连续流式的多模态信息中实现类人的深度感知与动态事件重建，推动技术迭代回归解决实际体验痛点的正途。