文章摘要
【关 键 词】 Transformer、注意力机制、高阶推理、华为诺亚、Nexus
华为诺亚方舟实验室提出了一种名为Nexus的高阶注意力机制,旨在解决传统Transformer架构在复杂逻辑推理任务中的局限性。传统自注意力机制通过线性变换生成Query、Key和Value,但这种方式只能捕捉两两之间的直接关系,难以建模多跳、多点之间的复杂关联。Nexus通过革新Q和K的生成过程,让token在计算最终注意力权重前先进行”预推理”,从而形成更具上下文感知能力的表示。
Nexus的核心创新在于其递归框架和权重共享策略。递归框架允许注意力机制嵌套多层,形成层次化推理链,从而支持高阶关系建模。例如,二阶注意力可以理解为”注意力的注意力”,三阶则进一步扩展为”注意力的注意力的注意力”。这种结构天然适合多步逻辑推理任务。与此同时,Nexus通过权重共享避免了参数量的增加,使得模型在保持原有规模的情况下获得更强的推理能力。
实验结果表明,Nexus在小模型和大模型改造中都展现出显著优势。在Pythia系列模型上的测试显示,Nexus在科学问答(SciQ)、物理常识推理(PiQA)等任务中提升明显,70M模型在SciQ上的准确率提升了7个百分点。对大模型Qwen2.5的改造也获得成功,在MATH-500等高难度数学推理基准上表现优异,证明该架构具有即插即用的特性。特别值得注意的是,在要求严格多步推导的AIME24测试中,7B模型的准确率提升了2.3个百分点,说明Nexus确实能够构建更连贯的推理链。
这项研究揭示了模型架构创新对提升推理能力的重要性。Nexus通过改变模型的”思考方式”而非简单增加参数规模,有效突破了传统Transformer的推理天花板。其设计理念不仅适用于语言模型,未来还可能拓展至视觉、图神经网络和多模态任务领域。该工作为AI模型的推理能力提升提供了一条新路径,表明智能的进步不仅依赖于数据规模和算力,更需要基础架构层面的创新突破。
原文和模型
【原文链接】 阅读原文 [ 2057字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆




