谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场

AIGC动态2小时前发布 AIera
40 0 0
谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场

 

文章摘要


【关 键 词】 AI技术视频感知世界模型多模态模型AGI研究

Yann LeCun、李飞飞和谢赛宁联合发表的论文《Cambrian-S:迈向视频中的空间超感知》提出了一种突破性观点:当前基于大语言模型(LLM)的AI技术存在根本性缺陷,无法实现真正的通用人工智能(AGI)。三位学者认为,智能体必须通过构建内部世界模型来主动预判和组织感官信息,这种”超感知”能力是通向AGI的关键路径。研究团队将感知能力划分为五个演进阶段:从纯语言理解到预测性世界建模,揭示了现有多模态模型在空间认知和长期记忆方面的严重不足。

视频被确定为研究超感知的理想媒介,因其最接近人类日常体验世界的方式。团队开发了VSI-Super基准测试,包含长时程空间记忆和持续计数两项任务,结果显示即使顶尖的Gemini 2.5模型也难以应对基本挑战。这验证了莫拉维克悖论——对人类而言简单的感知任务,对AI却异常困难。为解决数据瓶颈,团队构建了包含59万样本的VSI-590K数据集,并开源了参数规模从5亿到70亿不等的Cambrian-S模型系列。实验表明,新模型在空间推理任务上比基线提升达30%,但仍未突破根本性局限。

研究最具创新性的部分是提出”预测性感知”原型,其灵感来自人类视觉系统的高效信息处理机制。通过模拟大脑”预测-比对”的认知过程,团队开发了潜在帧预测(LFP)模块,利用”惊异度”指标实现动态记忆管理和事件切分。这种仿生设计使小模型在基准测试中超越了规模更大的商业系统,证实了预测性世界模型的理论价值。论文同时指出,现有LLM范式缺乏类似的主动预测机制,这可能是阻碍AI获得类人感知能力的关键因素。

研究最终强调开放科学的重要性,认为当前技术路线存在严重的路径依赖风险。团队同步发布了两项辅助成果:关于消除基准测试语言偏见的方法论研究,以及利用模拟器收集空间感知数据的实践经验。这些工作共同构成了对AI发展方向的系统性反思,挑战了单纯依靠数据规模和参数扩张的主流范式。三位作者特别指出,在医疗、农业、工业等现实场景中,具备超感知能力的智能体将产生变革性影响,而这需要从根本上重新思考AI的架构设计。

原文和模型


【原文链接】 阅读原文 [ 3322字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...