AMD新论文颠覆认知:FP4训练不稳定,原因不是随机性不足

AMD新论文颠覆认知:FP4训练不稳定,原因不是随机性不足

 

文章摘要


【关 键 词】 大模型低精度预训练模型量化训练加速

大模型训练成本高昂,降低训练精度成为行业探索降本的重要途径。尽管较高精度已成功应用,但进一步将精度降至极低时,训练过程极易出现不稳定的问题,且传统观点将其归咎于随机性不足。最新研究颠覆了这一认知,明确指出极低精度训练不稳定的根源并非随机性不足,而是结构性微缩放误差沿敏感梯度路径累积放大所致。

研究团队在原生硬件上进行了详细的排查实验,将计算的三个核心步骤逐步替换为微缩放格式。实验结果表明,前向传播和激活梯度对量化具有较高容忍度,而权重梯度一旦量化至极低精度,收敛质量便显著退化,成为训练瓶颈。针对此问题,业界常用的随机舍入和随机旋转策略不仅未能稳定训练,反而因引入变化的误差模式导致不收敛。研究证实,采用确定性旋转变换能够保持误差模式一致,有效避免误差累积,从而将全流程额外开销大幅压低,使训练轨迹紧密跟踪高精度基线。

在应用确定性旋转变换后,基于微缩放格式的大模型预训练实现了训练步吞吐量的显著提升,扣除额外开销后端到端综合加速依然可观,且收敛质量与高精度基线非常接近。这项成果不仅首次在原生硬件上跑通了全流程预训练,还将极低精度的应用场景从推理专属拓展至训练可用,使现有硬件的可用训练算力在理论上实现翻倍。

此外,该方案采用了多方科技巨头联合支持的开放标准数据格式,具备良好的跨硬件生态可移植性,不会被锁定在单一平台。这一关键突破为低精度训练的不稳定性提供了清晰的因果诊断与方法论指导,迈出了精度降本的关键一步,持续推动着大模型训练经济性的深刻变革。

原文和模型


【原文链接】 阅读原文 [ 2108字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★★

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...