标签:空间推理
CVPR 2026 三维视觉趋势梳理:从 RGB 感知,到真实世界建模
计算机视觉研究正从单纯依赖RGB外观表征,转向对三维结构、跨视角一致性、时间动态和观察过程的综合建模,以推动视觉模型具备更强的空间推理能力,从而更好地...
DeepSeek多模态新范式:一张图压缩7056倍,思考能力反超GPT和Claude
技术实现方面,研究基于DeepSeek-V4-Flash紧凑架构,采用压缩稀疏注意力机制对海量视觉信息进行极致压缩。一张图片的关键信息在模型缓存中仅占用约90个存储单...
具身导航:感知推理是上帝,还是执行控制是命门?| GAIR Live 023期预告
具身智能导航技术正经历从传统几何避障向高阶空间智能的跨越式发展。导航不再局限于路径规划,而是融合视觉感知、空间推理与实时决策的系统性挑战,这一变革...
告别昂贵人工标注,英伟达全自动视频理解助力小模型逆袭顶级大模型
FoundationMotion(又称Wolf V2)是由麻省理工学院、英伟达、密歇根大学、加州大学伯克利分校和斯坦福大学联合推出的创新系统,旨在解决人工智能在理解物理世...
李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
纽约大学、耶鲁大学和斯坦福大学的研究者们提出了VSI-Bench,这是一个基于视频的基准测试,旨在评估多模态大语言模型(MLLM)在视觉空间智能方面的表现。VSI-...
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
这篇新智元报道介绍了一种名为3D-VLA(3D视觉-语言-动作)的新型生成式视觉-语言-行动模型,该模型在多项任务中显著提高了推理、多模态生成和规划的能力。与...




