大模型每百天性能翻倍!清华团队“密度法则”登上 Nature 子刊

AIGC动态2小时前发布 ai-front
43 0 0
大模型每百天性能翻倍!清华团队“密度法则”登上 Nature 子刊

 

文章摘要


【关 键 词】 大模型密度法则能力密度模型压缩端侧智能

OpenAI前首席科学家Ilya Sutskever指出,随着互联网公开语料接近枯竭,传统大模型预训练模式将难以为继。这一背景下,清华大学提出的”密度法则“(Densing Law)为行业发展提供了新视角。该理论揭示大语言模型的最大能力密度随时间呈指数级增长,2023年2月至2025年4月期间约每3.5个月翻一倍,意味着可用半数参数量的模型实现同等性能,相关成果已发表于《自然·机器智能》期刊。

研究团队从半导体行业的摩尔定律获得启发,提出衡量模型能力密度的创新方法:将基准模型密度设为1,目标模型密度定义为同能力基准模型参数量与目标模型参数量的比值。通过对51个开源大模型的系统分析发现,在”数据-算力-算法”协同作用下,模型正通过提升能力密度而非单纯扩大规模实现进化

密度法则衍生出四项重要推论。首先,同能力模型的推理开销呈指数级下降,GPT-3.5级模型API价格在20个月内下降266.7倍,平均每2.5个月降幅达50%。其次,能力密度提升呈现加速态势,ChatGPT发布后密度翻倍周期从4.8个月缩短至3.2个月。第三,研究发现当前模型压缩技术存在局限性,除Gemma-2-9B外,多数压缩模型密度低于原始版本,量化技术同样会降低性能密度。最后,芯片电路密度与模型能力密度的交汇预示端侧智能爆发,边缘设备将具备运行高性能大模型的能力。

基于该理论指导,清华大学与面壁智能团队研发的MiniCPM系列端侧高密度模型取得显著成效,截至2025年10月下载量近1500万次,成为Hugging Face平台最受欢迎的中国大模型。密度法则不仅揭示了大模型发展规律,更为行业突破数据瓶颈提供了技术路径,推动算力普惠从云端向终端设备延伸。

原文和模型


【原文链接】 阅读原文 [ 1431字 | 6分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...