Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

AIGC动态1年前 (2024)发布 almosthuman2014

3,134 0 0

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

文章摘要

在近期的研究中，加拿大皇家银行 AI 研究所 Borealis AI 与蒙特利尔大学的研究者提出了一种新型序列建模方法，该方法旨在解决 Transformer 模型在推理时内存和计算资源需求较高的问题。

研究者指出，尽管 Transformer 由于其并行处理能力而在序列建模中取得了显著突破，但其推理时的二次计算复杂度限制了在资源受限环境下的应用。为克服此限制，他们提出了“Attention as an RNN”的概念，展示了如何将流行的基于注意力模型（例如 Transformer 和 Perceiver）视为 RNN 变体。

研究的关键在于，通过将注意力机制解析为一种特殊类型的 RNN，研究者揭示了其高效计算多对一 RNN 输出的能力。进一步地，他们基于并行前缀扫描算法提出了一种新的注意力计算方法，该方法能高效实现多对多 RNN 输出，从而在推理时只需恒定内存，像传统 RNN 一样高效更新。

这一新方法被命名为 Aaren，它在保持 Transformer 并行训练优势的同时，实现了对长上下文的高效处理。实验结果显示，Aaren 在涵盖强化学习、时间序列分类和时间序列预测等领域的38个数据集上的表现与 Transformer 相当，同时在时间和内存效率上有显著提升。

研究强调了将注意力视为 RNN 的重要性，不仅提供了对现有注意力模型的全新视角，也为设计具有高效更新能力的新模型奠定了基础。这种新方法在实现高效推理的同时，保持了与现有 RNN 模型相比的优势，尤其是在处理新 token 更新时仅需常量内存的特点。这对于在资源受限环境中部署高级序列模型具有重要的实际意义。