文章摘要
【关 键 词】 AI技术、空间感知、多模态模型、视频理解、智能感知
寒武纪项目的最新成果Cambrian-S引起了广泛关注,这一模型专注于解决人工智能领域的核心问题:让AI真正学会感知世界。不同于传统硅基芯片研发,该团队将重点放在空间感知能力的突破上,开发了一款多模态视频大模型,在短视频空间推理任务中取得了领先性能。更值得注意的是,模型通过预测感知模块成功解决了超长视频处理这一行业难题。
团队的发展路径体现了独特的技术思考。在完成Cambrian-1图像多模态模型的探索后,研究人员没有选择常规的规模扩张路线,而是重新思考多模态智能的本质。谢赛宁提出的”超感知”概念直指当前AI系统的关键局限——多数模型仅将视觉信息转化为文字处理,而非真正理解空间关系。这种理念推动团队转向视频空间感知研究,致力于让AI不仅能识别物体,还能理解物体间的动态空间关系。
为实现这一目标,团队系统性地解决了两个基础问题。首先开发的VSI-SUPER基准测试揭示了现有商业模型的明显缺陷:在120分钟长视频任务中,主流模型的准确率不足15%。其次构建的VSI-590K训练数据集为模型学习提供了59万条精准标注的空间场景样本。这种”先定义标准、再准备数据”的方法论确保了研发方向的科学性。
Cambrian-S模型系列的技术实现展现出多项创新。虽然参数规模控制在0.5B-7B之间,但通过预测下一帧的训练机制,模型在短视频任务中达到最优性能,在空间记忆准确率上比开源模型提升30%以上。其预测感知模块不仅增强了对超长视频的处理能力,还有效控制了计算资源消耗,避免了单纯依赖硬件升级的性能提升模式。
该项目汇聚了跨领域的专业团队,除谢赛宁外,还包括主导开发的纽约大学博士生Shusheng Yang,专注多模态模型研究的博士后Jihan Yang,以及来自Google Gemini等机构的实习生。这种组合既保证了学术深度,又融合了产业实践经验。研究团队对空间智能的探索,可能为未来数字生命的环境交互能力奠定重要基础。
原文和模型
【原文链接】 阅读原文 [ 1683字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆




