OpenAI塌房！Scaling law原作曝bug，万亿算力全白烧

79 0 0

文章摘要

OpenAI在2020年提出的规模法则曾主导全球人工智能行业的发展方向，其核心结论是在固定算力下应优先扩大模型参数量。然而，前OpenAI研究员指出该原始论文存在致命漏洞，导致整个行业在模型训练上浪费了大量算力。最初的规模法则并非普适的物理规律，而是由于实验设计和算法设置上的缺陷得出的错误经验拟合曲线。

深入分析表明，OpenAI的原始研究在实验设计上产生了严重误导。研究对所有规模的模型使用了固定的训练数据量，导致小模型数据过剩而大模型严重缺乏数据。同时，训练中采用了余弦学习率衰减策略，在末期人为降低学习率，制造出模型性能已达饱和的假象，掩盖了大模型在获取更多数据后的成长潜力。此外，研究者将特定有限条件下的局部结论错误地推广为普遍适用的法则。这些方法论上的失误直接导致全球人工智能行业陷入了盲目堆叠参数的误区，造成了严重的算力错配与资源浪费。

后续研究不仅修正了参数与数据的比例关系，还揭示了更深层的认知局限。尽管后续提出的Chinchilla模型证明了参数与数据应同步放大，但其原始拟合过程同样存在优化器损失尺度设置错误的瑕疵。更值得关注的发现是，现有的规模法则本质上是基于英语这一形态贫乏、高度依赖数据分布的语言建立的。在相同架构和算力下，形态丰富的语言如法语和中文，其模型训练效率远超英语，这表明当前的算力配比方案实际上是在测量特定语言的局限而非通用智能的客观规律。这一系列发现提示，通过优化数据质量和利用多语言特性，人工智能行业能够以更小的模型和更少的算力实现更高效的训练。