谷歌推出TransformerFAM架构，以更低的消耗处理长序列文本

AIGC动态1年前 (2024)发布 AIGCOPEN

2,164 0 0

文章摘要

【关键词】 人工智能、Transformer、算力负担、TransformerFAM、记忆机制

在人工智能领域，Transformer架构对大型模型产生了深远影响，被广泛应用于ChatGPT、Sora、Stable Diffusion等知名模型。然而，它在处理超长文档时，注意力复杂度的二次方增长成为一大算力负担。

谷歌研究人员提出了TransformerFAM架构，这一新型架构可以与预训练模型无缝集成，并通过LoRA进行少量精调，显著提升模型性能。

TransformerFAM的关键灵感来自于人脑的工作记忆机制，即前额叶皮层与视床之间的反馈循环。研究人员在Transformer中设计了一个类似的反馈循环，使注意力机制不仅能关注输入序列，还能关注其自身的潜在表示，从而有效处理超长序列并更新全局上下文信息。

该架构的核心模块是反馈注意力记忆（Feedback Attention Memory，FAM），它在每个Transformer层中加入，通过激活自注意力过程，使输入查询不仅关注当前块和过去的记忆段，还能结合前一步的FAM状态，实现全局上下文知识的融入和传递。块内压缩技术也是处理长序列数据的关键，通过将长序列分割并压缩信息，使模型能高效处理和记忆。

实验评估表明，在1B、8B和24B参数的Flan-PaLM大语言模型上，TransformerFAM在长序列任务上的表现超越了传统Transformer架构，并且在资源消耗上更低。TransformerFAM像一个“便签本”，帮助大型模型记住大量短暂细小的信息，而不增加内存和算力的负担。这种设计使得模型在保持性能的同时，对内存和算力的需求几乎没有额外增加，展现出了卓越的“记忆存储”泛化能力。