WAIC 最具技术想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律

WAIC 最具技术想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律

 

文章摘要


【关 键 词】 AI技术GPT-3面壁智能端侧模型知识密度

2020年,1750亿参数规模的GPT-3模型问世,其训练成本高昂,需要使用1000张英伟达A100 GPU,花费81.6万美元,耗时22天。然而,到了2024年,只需2B参数规模的大模型就能达到与GPT-3相当的性能表现。

面壁智能提出的面壁定律指出,大模型的知识密度(模型能力/推理算力能耗)平均每8个月提升一倍。

面壁智能推出的端侧多模态大模型MiniCPM-Llama3-V 2.5,实现了以最小参数撬动最强性能的平衡点。

其后续推出的MiniCPM小钢炮旗舰端侧大模型系列,包括MiniCPM 2.4B+1.2B基座模型、可对标GPT-4V的MiniCPM-V端侧多模态模型等,整体知识密度相比GPT-3提高了约86倍。

面壁智能还在2024年世界人工智能大会上发布了高效稀疏模型MiniCPM-S和全栈式工坊MobileCPM。

MiniCPM-S采用了ProSparse稀疏激活解决方案,通过ReLU激活函数和稀疏感知训练,将神经元激活比例降至约10%,实现了2.8倍的推理速度提升和84%的FFN模块成本降低,知识密度相比稠密模型提升2.57倍。

MobileCPM旨在降低开发者门槛,实现大模型与APP的无缝对接。

它提供基础模式、精装模式和全包配件模式,支持任意端侧模型的集成,大幅降低开发者开发大模型应用的成本。

MobileCPM已全面支持iOS系统,Android版本也即将发布。

面壁智能在AGI技术研究领域走在前沿,成为大模型行业发展的风向标。

其联合创始人&CEO李大海表示,到2026年年底,面壁将实现GPT-4水平的端侧模型。

面壁智能一直在探索大模型落地的各种途径,服务过大B企业,涉及金融、营销、法律、内容等领域。

其首席科学家刘知远还透露了穿戴设备、智能硬件等更多端侧AI场景和应用,预示着端侧AI生态的序幕即将拉开。

面壁智能将重点聚焦端侧,做离用户最近的事情,推动高效大模型的发展。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 3466字 | 14分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...