文章摘要
【关 键 词】 人工智能、记忆系统、具身智能、人机交互、终身学习
RoboBrain-Memory是全球范围内首个专为全双工、全模态模型设计的终身记忆系统,由智源研究院、Spin Matrix、乐聚机器人与新加坡南洋理工大学等机构联合开发。该系统旨在解决具身智能体在真实世界中的复杂交互问题,通过实时音视频多用户身份识别与关系理解,动态维护个体档案与社会关系图谱,实现类人的长期个性化交互。
该系统采用三大异步进程与两级记忆体系的核心架构。检索进程通过视觉(人脸)与听觉(声纹)技术实时识别用户,文本检索则从档案库中获取相关事实与关系。全模态交互进程结合对话上下文与用户档案,调用主模型RoboEgo生成个性化、实时的语音回复,其响应延迟达到毫秒级,对话质量与顶尖模型持平。记忆管理进程自动检测对话边界并提取关键信息,形成事件记忆,通过自我更新实现记忆重塑。
两级记忆系统将信息划分为个人档案记忆(Level-1)和关系驱动记忆(Level-2)。Level-1精准记录用户姓名、喜好等关键信息,确保AI能识别并理解独立个体;Level-2构建用户间的社交记忆网络,使AI能洞察群体关系并在对话中主动调用相关信息。系统通过身份识别、人格注入、个性化回复和档案更新等机制实现记忆的动态维护。
为实现这一架构,团队开发了三个关键子模块。全模态检索系统采用高效的人脸识别与声纹识别技术,文本检索则实现关系查询和事实检索的两阶段融合。视听流终身记忆管理引入RQ-Transformer触发器,精准定位对话起止并自动完成事件总结。基于监督mask的统一训练框架通过合成多用户数据增强,赋予模型个性化对话生成、主动查询和对话边界识别能力。
系统能力通过多项权威评测验证:人脸识别准确率达98.4%,声纹识别等错误率低于1%,文本检索准确率超96%,响应延迟小于0.2秒。对话边界识别在0.4秒容错下识别率超98%,个性化对话实现87.6%事实正确性和8.82/10回答质量,系统吞吐速率超过20fps。
RoboBrain-Memory为具身智能理解人类意图与社会关系提供了新起点,在家庭环境、专业协作和认知辅助等领域展现出应用潜力。系统能够识别家庭成员关系执行高阶指令,在专业环境中基于身份和角色精准响应,并有望作为认知辅助技术的基础。该研究开启了如何将社会记忆和关系理解能力转化为可泛化、可信赖的长期人机伙伴关系的前沿探索。
原文和模型
【原文链接】 阅读原文 [ 2253字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




