麻省理工提出“跨层注意力”，极大优化Transformer缓存

AIGC动态2年前 (2024)发布 AIGCOPEN

4,399 0 0

文章摘要

【关键词】 Transformer、跨层注意力、内存优化、效率提升、AIGC发展

在人工智能生成内容（AIGC）领域，Transformer架构因其在大语言模型（LLM）中的关键作用而备受关注。然而，随着模型参数的指数级增长，传统的Transformer架构在解码时面临内存占用过大的问题，特别是在处理长序列和大批次推理任务时。

为了解决这一挑战，麻省理工学院的研究人员提出了一种名为跨层注意力（Cross-Layer Attention, CLA）的新技术。CLA的核心思想是在相邻解码层之间共享键值（KV）缓存，从而显著降低内存使用。这种方法不仅减少了模型必须维护的独立KV集合数量，而且通过层间连接重用这些激活，提高了模型的效率和准确率。此外，CLA还提供了灵活的配置选项，允许开发者根据需要调整共享因子，以平衡内存使用和模型性能。

研究人员在10亿和30亿参数规模的模型上进行了实验，以测试CLA的性能。实验结果表明，在减少KV缓存大小的同时，CLA能够实现与非CLA模型相当的推理准确性。特别是在10亿参数规模的实验中，CLA模型在保持准确度的基础上显著减少了KV缓存的大小。在30亿参数模型的实验中，CLA同样展现了其高效性，与相同头维度的基线模型相比，实现了更低的验证困惑度。

此外，研究人员还对选定的几个模型进行了学习率调整实验，以确认CLA在与经过良好调整学习率的基线模型相比时是否具有优势。实验结果显示，CLA在减少KV缓存大小的同时，能够实现与非CLA模型相当的推理准确性。

总之，CLA作为一种创新的优化技术，为解决Transformer架构在大模型中的内存瓶颈问题提供了一种有效的解决方案。通过在不同解码层间共享KV缓存，CLA不仅降低了内存占用，而且提高了模型在处理长序列和大批次推理任务时的效率和准确率。这一研究成果有望推动AIGC领域的发展，为构建更高效、更准确的大语言模型提供支持。