标签:人类视频

直面LeCun愿景,智在无界发布最强具身世界模型,20万小时人类视频屠榜6大榜单

该模型摒弃了显式的未来像素重建,通过在潜在查询处建立中间思考空间来指导动作生成。采用了前后视角的双分支架构,实现了高效的后验监督与先验约束的对齐方...