三位AI殿堂级人物罕见同框:LeCun、李飞飞、谢赛宁团队用空间超感知让AI像人一样理解三维世界

AIGC动态3小时前发布 AIGCOPEN
44 0 0
三位AI殿堂级人物罕见同框:LeCun、李飞飞、谢赛宁团队用空间超感知让AI像人一样理解三维世界

 

文章摘要


【关 键 词】 人工智能空间感知视频理解预测模型多模态学习


研究团队将AI视觉能力发展划分为四个演进阶段:语义感知、流事件认知、隐式3D空间认知和预测性世界建模。诊断测试显示,现有视频基准测试存在严重缺陷——许多任务可通过语言推理完成,无需真正视觉理解。为填补这一空白,团队设计了VSI-SUPER基准测试,包含大海捞针式空间记忆(VSR)和跨场景持续计数(VSC)两项对人类简单但对机器极具挑战性的任务。

基于大规模空间理解数据集VSI-590K,Cambrian-S模型在传统基准上表现优异,但在VSI-SUPER测试中仍显不足。这揭示了当前技术范式的天花板:单纯扩大模型规模和优化数据已接近极限。研究转向预测性感知新范式,让AI通过预测下一帧画面并利用预测误差(惊喜)来管理记忆和分割事件。实验证明,在超长视频任务中,这种方法的性能远超传统方法且保持稳定。

研究最终指向智能的本质:真正的理解不在于被动接收信息,而在于主动预测和建模世界。当现实违反预测时产生的惊喜信号,可能正是引导AI注意力、记忆和学习的关键机制。这一发现为突破当前AI发展瓶颈提供了全新思路,将推动机器智能从”看得更多”向”理解更深”转变。

原文和模型


【原文链接】 阅读原文 [ 3736字 | 15分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...