文章摘要
【关 键 词】 AI记忆、视觉编码、端侧模型、视频搜索、多模态
Memories.ai公司由前Meta研究员Shawn Shen和Ben Zhou创立,专注于开发大型视觉记忆模型(LVMM)。其核心技术创新在于将原始视频转换为设备上的结构化内存,通过编码、压缩和索引技术实现亚秒级自然语言搜索。最新发布的LVMM 2.0通过与高通合作,首次实现模型在端侧设备(如AI眼镜)的部署,解决了持续视频处理的功耗和隐私问题。
该公司的技术路线严格遵循人类记忆形成的两阶段理论:编码器负责将视觉信息实时转化为结构化数据,搜索引擎则实现高效检索。与传统视觉模型不同,LVMM具备三大突破性特征:真正融合视觉与音频的多模态能力、基于视频流训练的动作理解能力,以及针对人物/动作/物体优化的自监督学习机制。Shawn强调,这种编码模型存在明确的技术天花板——即实现视频信息的无损重构,而非追求无限智能的推理能力。
商业化策略呈现三层架构:面向专业用户的视觉平台、开放给开发者的API接口,以及针对安防监控等场景的B端定制方案。公司明确将自身定位为”AI基础设施提供商”,专注于视频编码和搜索两大基础功能,将上下文处理等高层应用留给合作伙伴。典型应用场景包括智能相册管理、宠物行为追踪等,用户可通过自然语言查询特定事件(如”花瓶何时被打碎”)并精准定位视频片段。
技术实现层面,LVMM采用独特的”世界模型”编码器架构。与主流视觉模型基于静态图片训练不同,该模型以视频帧为最小单位,能捕捉时间维度的连续动作。这种设计更接近人类视觉记忆的非线性特征,避免了传统方法需要线性扫描所有视频帧的局限。与高通的合作标志着技术路线的重要转折——从云端GPU依赖转向端侧NPU部署,为可穿戴设备和机器人提供实时视觉处理能力。
在发展战略上,Memories.ai坚持”定义问题比解决问题更重要”的学术思维。其北极星指标是”成为所有智能体的记忆系统”,核心价值主张为”让AI看见和记住”。通过放弃视频剪辑等应用层探索,公司集中资源攻克端侧编码模型的小型化挑战。Shawn指出,视觉记忆本质上不同于文本记忆,在万物皆可记录的时代,构建可靠的记忆基础设施可能比追求智能推理更具基础性价值。这种差异化定位使其避开与科技巨头的直接竞争,在AI生态链中占据独特位置。
原文和模型
【原文链接】 阅读原文 [ 5075字 | 21分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




