Agnes团队：不堆参数、不烧算力！小模型也能跑出大模型能力

56 0 0

文章摘要

当前大模型发展高度依赖扩大参数规模、数据量和算力，面临训练成本高昂且边际收益递减的行业困局。针对这一瓶颈，研究者提出了Mythos架构假想，其核心思路是通过引入额外的循环计算机制，尝试用更多的内部计算来替代传统的参数扩张，从而探索出一条不依赖堆叠参数即可提升模型性能的新路径。

为了验证这一架构假想的实际工程价值，研究团队基于开源框架搭建了完整的语言模型预训练流程，并将循环计算机制融入小型语言模型中开展对照实验。研究在严格控制模型参数规模、网络层数以及训练预算的前提下，重点测试了引入单次循环计算对模型预训练效率的具体影响，旨在科学评估调整内部计算流程能否带来实质性的性能改善。

实验结果表明，在相同的训练条件下，增加一次循环计算使模型在测试集上的困惑度指标平均下降了约10%。这意味着模型对训练数据的利用效率出现了显著的积极变化。此外，训练动态分析显示，这种性能优势并未随着训练步数的增加而衰减，反而在后期变得更加明显，有力地证明了循环计算机制切实提升了模型参数的使用效率，而非仅仅制造了早期的优化假象。

该项研究成功将理论猜想转化为可复核的工程实验，证实了在不增加参数规模和算力成本的前提下，仅靠架构层面的创新也能让小模型获得显著的性能收益。虽然更深度的循环计算在当前基础配置下尚未展现出优势，但单次循环计算所释放的正向信号，为未来在更大数据规模下优化训练配方、探索自适应计算深度奠定了坚实基础，为人工智能行业突破发展瓶颈提供了极具潜力的新方向。