具备实时数据更新能力的大语言模型——Larimar

AIGC动态1年前 (2024)发布 AIGCOPEN

1,989 0 0

文章摘要

文章介绍了一个专注于AIGC领域的专业社区，关注微软 &OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地的平台。其中提到了ChatGPT、Claude.ai等大模型产品为我们生成各种内容，但更新知识需要漫长、费时的预训练和蒸馏。为解决这一问题，研究人员提出了一种名为Larimar的大语言模型，具有情景记忆控制能力，类似于人脑中的“海马体”。Larimar设计了一个外部记忆模块，可以有效注入新的知识数据到大语言模型中，无需重新预训练即可精准使用新数据。

Larimar的核心方法受到人脑“海马体”神经结构的启发，海马体在记忆形成、组织、检索和空间导航中扮演关键角色。Larimar采用互补学习系统理论，将样本记录为情景记忆，同时学习输入分布的摘要统计信息作为语义记忆。目标是将情景记忆作为大语言模型解码器的条件，利用类似Kanerva Machine的分层记忆结构高效更新记忆。

Larimar包括多个核心模块：大语言模型编码器使用BERT模型将输入文本映射到潜在语义空间；外部情景记忆模块设计了一个存储矩阵，用于存放向量表示，新知识数据输入后写入并随机抽取；大语言模型解码器使用GPT系列模型将记忆模块中的数据解码生成文本输出；记忆范围检测器是一个小型序列二分类模型，判断是否需要利用记忆模块进行条件生成。

研究人员表示，Larimar是一种创新技术架构，可以解决大语言模型数据更新不及时、消除非法、偏见、错误数据，同时保护敏感数据防止外泄。该技术有望提高大语言模型的灵活性和实用性，为AIGC领域的发展带来新的可能性。