好看不等于会交互！阿里发布基于交互的世界模型基准

38 0 0

文章摘要

在当前AIGC发展背景下，视频生成技术虽已实现视觉效果的高度精致化，但在物理规律与交互逻辑层面仍存在显著缺陷。针对这一问题，阿里、中科院、北航及北邮联合推出Omni-WorldBench评估框架，系统性考察模型在4D环境（空间+时间）中的交互响应能力。该框架突破传统视频生成评估仅关注静态画面保真或文本对齐的局限，转向对动态演化过程的深层验证，填补了世界模型领域评估标准的空白。

评估视角的根本转变体现在对“交互响应”这一核心能力的重新定义上。研究指出，现有基准多采用FID、FVD等指标衡量生成质量，忽视了时间维度上的动态演变；即便少数涉及三维空间一致性评估，亦未纳入动作驱动的状态变化轨迹。为此，Omni-WorldBench提出包含Omni-WorldSuite题库与Omni-Metric评分机制的完整架构，将交互分为三级：物体内部状态变化、局部对象影响、全局环境扰动，并覆盖自动驾驶、具身机器人、游戏三大应用方向。

题库构建严谨细致，共1068个测试用例，融合真实数据驱动与概念驱动两种策略确保高质量与多样性。通过DriveLM、InternData-A1、Sekai等实际场景数据集采样，结合Qwen-VL与人工精调；同时利用原型概念库+多模型生成+图像筛选流水线产出符合物理规则的首帧图像。所有案例标注了实体列表、运动方向、事件时序及相机轨迹等关键信息，形成高度结构化的评估语料基础。

评测体系则聚焦三重维度：一是视频质量，包含成像、闪烁、平滑度等常规指标；二是相机与对象可控性，引入光流分析与多模态视觉问答方法评估对象稳定性；三是核心交互保真度，细分为长周期连贯性（InterStab-L）、非目标区域稳定性（InterStab-N）、因果真实性（InterCov）及事件顺序准确性（InterOrder），再由AgenticScore聚合代理机制整合权重输出综合得分。该机制根据任务语义动态分配权重，避免简单平均带来的偏差。

在实测环节，18款主流模型均参与H20集群下的端到端性能比对。结果显示，支持图像输入的生成范式（如Wan2.2、Cosmos）在综合得分上领先，达75%以上；纯文本生成类中HunyuanVideo表现最优；具备复杂相机调度能力者如HunyuanWorld、WonderWorld亦具潜力。尽管模型普遍在画面质量和运动流畅度方面达标（95%+），但在交互保真度模块却暴露明显短板——例如WonderWorld虽在长时间序列连贯性（84.96%）上优异，其背景稳定度却跌至24.89%，反映出模型难以兼顾多变量联动时的基础物理约束。

当前AI视频模型普遍存在物理规律与因果逻辑理解不足的问题，尤其在需同步处理复杂相机控制与多重交互响应的高阶场景中表现疲软。Omni-WorldBench证明，未来世界模型的突破点在于构建能忠实反映动作-状态-时间关系的联合动态认知能力，而非常规的单帧美学优化。该框架不仅揭示了行业瓶颈，也为后续4D智能体与虚拟仿真系统的演进指明了明确研发路径。