1100多个模型殊途同归,指向一个「通用子空间」,柏拉图又赢一回?
文章摘要
【关 键 词】 神经网络、模型架构、权重收敛、低维子空间、泛化能力
研究发现,不同神经网络在训练过程中会收敛到共享的低维子空间,表明存在一种先验的数学结构,架构对学习结果的影响可能比数据更大。约翰斯・霍普金斯大学的研究通过分析1100多个神经网络,发现无论数据集、初始化或超参数如何变化,模型权重都会趋向于同一子空间。这一现象暗示神经网络并非创造新知识,而是在发现已有的几何形式。架构的优先级决定了模型的学习方向,而非数据本身。
该发现为多个未解现象提供了统一解释,包括过参数化模型的泛化能力、不同初始化的相似表示以及LoRA等技术的有效性。如果神经网络确实在共享子空间中学习,这将支持隐式正则化、可迁移性和稀疏训练方法的理论基础。同时,这一发现可能推动模型压缩、快速适应新技术、优化理论等应用发展。研究在Alphaxiv平台引发广泛讨论,有人联想到柏拉图的理念论,也有人担忧这可能意味着当前架构存在固有天花板。
研究具体分析了Mistral-7B模型的500个LoRA适配器、Vision Transformer和LLaMA3-8B模型,发现这些在不同数据集和初始化下训练的模型都涌现出相似的低秩通用子空间。这是首次在权重层面为”通用权重子空间假说”提供具体证据。虽然此前有神经正切核理论、机制可解释性研究等线索指向这一现象,但新研究首次明确提出了跨模型的参数收敛证据。
共享子空间具有多重意义:可实现大规模模型压缩、快速适应新任务、理论洞察以及环境效益。它还提供了研究泛化、顿悟现象等基本问题的新视角。作者也提出开放性问题:不同架构的子空间如何区分?能否优化子空间几何结构?更根本的是,这种收敛是否会导致多样性缺失,形成根本瓶颈?
实验方法上,研究聚焦同架构的大量模型,使用1-2阶高阶奇异值分解进行分析。在CNN实验中,ResNet-50在五个不同数据集上训练后,大部分信息仅存在于16个或更少的子空间方向中。LoRA模型分析显示,500个模型的参数都能被有限低秩子空间良好近似。将LoRA投影到该子空间后,性能保持稳健,内存效率提升19倍。文生图任务中也观察到类似现象,通用子空间甚至在某些情况下表现优于单个LoRA。
在模型合并方面,通用子空间方法无需调优或验证数据,仅基于几何结构就能实现优于现有方法的合并效果。与需要调整参数的先进方法相比,该方法在降低参数数量的同时取得了更高准确率。四项实验共同支持了通用子空间假说,展示了其在内存效率、模型复用等方面的优势。
关于子空间涌现原因,作者提出三个理论因素:神经网络对低频函数的谱偏好、现代架构的强归纳偏置以及基于梯度的优化方法的普遍性。如果这些假说成立,通用子空间可能捕获了超越特定任务的基本计算模式,解释迁移学习的有效性。但研究也存在局限,如任务多样性不足和缺乏跨架构比较方法,需要更严格的验证。
原文和模型
【原文链接】 阅读原文 [ 3032字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



