文章摘要
【关 键 词】 AI研究、视觉模型、物理推理、基准测试、技术评估
斯坦福大学与中国科学技术大学的研究团队开发了首个定量评估视觉语言模型(VLMs)物理理解能力的基准测试QuantiPhy。该测试包含超过3355个视频-文本问答对,涵盖2D/3D运动、静态/动态先验条件,要求模型结合视频观察与给定物理条件(如物体尺寸)计算运动学属性(速度、加速度等)。研究发现,即使顶尖模型如GPT-4o或Gemini,在数值计算任务中的表现也仅接近人类直觉水平(平均得分约50%),且开源模型Qwen3-VL-Instruct-32B以46.0分接近中等闭源模型性能。
QuantiPhy揭示了当前模型的根本缺陷:依赖参数化知识而非实时视觉推理。反事实实验显示,当物理先验数值被刻意扭曲时,模型仍输出典型值范围,表明其通过记忆“猜测”而非基于像素测量计算。例如,若告知模型“汽车长450米”,其速度估算值并未按比例放大,而是停留在常见车速区间。更惊人的是,仅提供文本先验(无视频)时,模型表现与“视频+先验”模式相当,证实视觉输入几乎未参与推理过程。
数据构建融合了Blender模拟、实验室捕捉与互联网抓取,确保多样性与精确性。Blender模拟提供上帝视角的绝对真值,覆盖微观至宏观尺度;实验室数据通过多视角立体视觉重建4D运动;互联网视频则需包含参考物体以转换物理单位。评估采用平均相对准确率(MRA),容忍连续误差,但模型在动态任务(基于速度/加速度推算)的表现优于静态任务(基于尺寸推算),可能因时间跨度较短或模型对时序信息的偏好。
思维链(CoT)提示未能系统性提升性能,仅3/21模型轻微受益,其余因中间步骤误差放大而表现更差。背景复杂度对结果影响较小,真实场景反而略优,可能因隐式参考线索(如地砖)辅助推理;多物体场景因提供相对关系校准,准确率更高。
研究结论直指模型“输入不忠实”问题:过度依赖预训练知识,忽视即时视觉证据。这对具身智能、自动驾驶等需精确交互的应用构成根本挑战。未来需扩展数据集至旋转动力学、柔体形变等复杂交互,并探索物理感知目标函数或专用数据预训练方法,推动模型从“记忆检索”转向“视觉计算”。
原文和模型
【原文链接】 阅读原文 [ 3535字 | 15分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




