谷歌推出全新模型，将Transformer与NAR相结合

AIGC动态1年前 (2024)发布 AIGCOPEN

1,528 0 0

文章摘要

【关键词】 Transformer、神经算法推理、TransNAR、多层级训练、泛化能力

在AIGC领域，Transformer架构的引入极大地推动了大模型的技术创新，催生了ChatGPT、Coplit、讯飞星火、文心一言等生成式AI产品。尽管Transformer在自然语言理解任务上表现出色，但其在算法推理方面存在缺陷，特别是在面对超出训练数据分布的输入时，泛化能力急剧下降。

为了解决这一问题，谷歌DeepMind的研究人员提出了一种结合Transformer和神经算法推理（NAR）的新型架构——TransNAR。NAR是一种专门处理图结构数据的神经网络，能够自然地表达算法的逻辑流程，包括条件判断、循环迭代等编程结构。

TransNAR的输入包括文本形式的算法问题描述和相应的图表示。文本输入首先被送入Transformer层，通过自注意力和前馈网络生成文本表示；同时，图表示被送入NAR层，通过图神经网络操作生成图的节点和边的表示。当Transformer和NAR各自准备好表示后，跨注意力机制开始发挥作用，通过查询、键和值的交互实现信息的整合。

多层级训练策略是TransNAR成功的关键。在预训练阶段，NAR被独立训练，执行CLRS-30中的算法任务，学习算法的内在逻辑和计算步骤。在微调阶段，TransNAR接受双重输入，Transformer部分利用预训练的NAR提供的节点嵌入信息，通过跨注意力机制调节标记嵌入。此时，Transformer的参数可训练，而NAR的参数保持冻结，以确保模型的稳定学习和收敛。

研究人员通过CLRS-Text基准测试对TransNAR进行了综合评估。结果显示，TransNAR在多种算法任务上显著优于基线Transformer，尤其是在分布外的泛化能力上，展现出了超过20%的优化改进。这表明TransNAR能够有效地处理训练数据之外的更大或更复杂的问题实例，具有强大的鲁棒性和泛化能力。

总之，TransNAR的提出为解决Transformer在算法推理方面的缺陷提供了一种有效的解决方案。通过结合Transformer和NAR的优势，TransNAR在结构化输入处理、算法逻辑表达和泛化能力上取得了显著的突破，为AIGC领域的进一步发展奠定了坚实的基础。TransNAR的提出为解决Transformer在算法推理方面的缺陷提供了一种有效的解决方案。