给Transformer变个形，LLM竟能变得更聪明

AIGC动态2小时前发布 almosthuman2014

44 0 0

文章摘要

当前大模型行业热衷于通过各类架构设计在有限算力预算下塞入更多参数，却忽略了模型内部参数分配方式的优化。传统神经网络各层分配完全相同的参数量，但大量研究表明模型各层的重要性并不均匀，浅层与深层承担不同的处理功能，提前退出与层剪枝实验均印证了这一点。模型各层的重要性存在显著差异，传统的均匀参数分配方式并非算力利用的最优解。因此，重新考量网络层之间的资源分配逻辑，成为提升模型效能的关键突破口。

研究团队通过对照实验证实，在保持总参数量绝对不变的前提下，将参数容量向模型前段集中能够显著降低模型的困惑度，而向后端集中则会导致性能恶化。基于这一物理现象，研究者提出了“锥形语言模型”概念，使前馈网络宽度沿模型深度方向单调递减。经过对多种数学曲线的广泛扫描与对比，采用余弦递减曲线的锥形配置在不增加任何参数规模和额外浮点运算的情况下，成功将模型困惑度降低1.84个点，实现了近乎免费的性能跃升。

该优化策略在跨架构验证中展现出卓越的泛化能力，于多种新型注意力机制架构及更大参数规模下均有效提升了推理准确率与语言预测表现，且未牺牲长文本检索能力。探究其内在机理发现，模型深层网络更多是在重复强调既有信息，而非产生实质性新理解，因此将额外计算容量优先分配给模型前段，完美契合了各层真实的特征提取需求。

这项研究证明了参数分布形状是一个极具价值的底层设计维度，为大语言模型乃至视觉和多模态模型的进一步优化提供了一条零成本的创新路径，有望推动深度学习基础架构设计的持续演进。