
文章摘要
【关 键 词】 明星创业、神经网络、模块化流、流形优化、研究论文
明星创业公司Thinking Machines发布第二篇研究论文,主题为“Modular Manifolds”,由公司创始人、OpenAI前CTO Mira Murati站台,翁荔等大佬转发支持。论文唯一作者Jeremy Bernstein提出模块化流形,以提升神经网络训练的稳定性和效率。
神经网络训练中,网络内部张量数值过大或过小会引发不稳定等问题。作者认为对权重矩阵归一化可使模型训练更稳定、易调整、行为更可预测且抗干扰能力更强。基于此,作者设计几何化框架,将神经网络权重参数约束在Stiefel流形上,联合优化器与约束。
核心研究过程如下:
– 提供基础示例:以向量W在单位球面上训练为例,普通更新可能使向量跑出球面,流形优化通过梯度投影到切空间、更新参数、Retraction投影将向量拉回球面。此过程需思考流形约束和长度测量问题,不同选择可创建不同优化算法。
– 推广到矩阵参数:将思路从向量推广到矩阵,把Transformer权重矩阵放在Stiefel流形上,其列向量正交、条件数为1,可确保信号不干扰、保持数值稳定。作者设计了流形Muon算法,在Stiefel流形切空间算梯度更新,经矩阵运算确保更新合法,再投影回Stiefel流形。
– 小规模实验验证:在CIFAR – 10数据集上训练小MLP,对比manifold Muon和AdamW算法,前者训练/测试准确率略优,权重矩阵奇异值更集中、幅度稳定,但运行时间稍慢,后续可优化。
– 推出“模块化流形”概念:将神经网络每层或模块视为单独流形,组合时通过笛卡尔积拼接成大空间,采用最大范数统一分配学习率,约束全局更新过程,使每层按规则更新,保持网络协调稳定。
作者Jeremy Bernstein教育背景跨物理和计算领域,研究集中在机器学习算法优化等方面,论文虽署名一人,但背后是多领域研究员跨界合作。
此外,Thinking Machines首篇论文研究克服大语言模型推理中的不确定性,作者是Horace He。清华姚班校友陈丹琦团队带来可验证奖励强化学习论文。该公司成果不断,值得期待其首个产品。
原文和模型
【原文链接】 阅读原文 [ 2467字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★