标签:人机差距

南大团队直击大模型高分神话:人类90分,最强模型仅49分

现有大模型在各种预设的视频理解测试中分数日益饱和,但与用户感知的真实体验之间存在显著差距。南京大学的科研项目团队受 Google Gemini 测评团队邀约,正式...