苹果开源OpenELM，大模型开源领域再迎一巨头！

AIGC动态2年前 (2024)发布 AIGCOPEN

3,933 0 0

文章摘要

4月24日，苹果开源了针对手机等移动设备的大语言模型OpenELM，与微软的Phi-3 Mini类似，提供了指令微调和预训练两种模型，分别有2.7亿、4.5亿、11亿和30亿4种参数，支持生成文本、代码、翻译、总结摘要等功能。尽管参数规模较小，但苹果利用1.8万亿tokens的数据进行了预训练，展现出强大性能。值得一提的是，苹果还开源了训练OpenELM模型的深度神经网络库CoreNet，受到了Github用户的热烈关注。苹果的知名研究项目MobileOne、CVNets、MobileViT、FastVit等都是基于CoreNet完成的。苹果的开源举动在大模型领域中引起了关注，尤其是对于开发者和中小企业来说，提供了更多的福利和技术支持。
OpenELM采用了无编码器的transformer架构，通过层级缩放策略实现了更好的性能和准确率，同时采用了RMSNorm进行预归一化，使用旋转位置嵌入编码位置信息等技术创新。在训练流程中，苹果使用CoreNet作为训练框架，采用Adam优化算法进行了35万次迭代训练，使用了1.8万亿tokens的数据集进行预训练，同时实现了动态分词和数据过滤的方法，提高了实验流程的灵活性。总的来说，苹果的开源举措展现了其进军大模型领域的决心，也为开源领域带来了更多的活力。