空间推理 | 学习AIGC

CVPR 2026 三维视觉趋势梳理：从 RGB 感知，到真实世界建模

计算机视觉研究正从单纯依赖RGB外观表征，转向对三维结构、跨视角一致性、时间动态和观察过程的综合建模，以推动视觉模型具备更强的空间推理能力，从而更好地...

AIGC动态

3周前

技术实现方面，研究基于DeepSeek-V4-Flash紧凑架构，采用压缩稀疏注意力机制对海量视觉信息进行极致压缩。一张图片的关键信息在模型缓存中仅占用约90个存储单...

AIGC动态

1个月前

具身智能导航技术正经历从传统几何避障向高阶空间智能的跨越式发展。导航不再局限于路径规划，而是融合视觉感知、空间推理与实时决策的系统性挑战，这一变革...

AIGC动态

5个月前

FoundationMotion（又称Wolf V2）是由麻省理工学院、英伟达、密歇根大学、加州大学伯克利分校和斯坦福大学联合推出的创新系统，旨在解决人工智能在理解物理世...

AIGC动态

5个月前

纽约大学、耶鲁大学和斯坦福大学的研究者们提出了VSI-Bench，这是一个基于视频的基准测试，旨在评估多模态大语言模型（MLLM）在视觉空间智能方面的表现。VSI-...

AIGC动态

1年前 (2024)

这篇新智元报道介绍了一种名为3D-VLA（3D视觉-语言-动作）的新型生成式视觉-语言-行动模型，该模型在多项任务中显著提高了推理、多模态生成和规划的能力。与...

AIGC动态

2年前 (2024)