苹果AI终于来了！从2.7到30亿四款大模型代码全开源，AI技术持续“狂飙”｜钛媒体AGI

381 0 0

文章摘要

苹果公司在Hugging Face平台上发布了名为OpenELM的开源高效语言模型，该模型有四种不同尺寸的版本，参数数量从2.7亿到30亿不等。这些模型定位于超小规模，运行成本低，可在移动设备上运行。在WWDC24开发者大会前，苹果完全开源了OpenELM模型的权重、推理代码、数据集和训练日志，并开源了神经网络库CoreNet。

苹果CEO蒂姆·库克曾在2月的财报会议上首次公布生成式AI计划，计划将AI技术集成到苹果的软件平台中。苹果在生成式AI领域的动作不断，3月份技术团队发表论文披露了大模型MM1，支持多模态和MoE架构，超半数作者为华人。现在，苹果发布了OpenELM大语言模型，提供文本生成、代码、翻译和摘要等功能。OpenELM使用了大量公共数据集进行预训练，尽管参数较小，但性能出色。例如，11亿参数的OpenELM比12亿参数的OLMo模型准确率高出2.36%，预训练数据仅为OLMo的一半。

在训练流程中，苹果使用了CoreNet框架和Adam优化算法进行了35万次迭代训练。苹果在论文中表示，与以往不同，此次发布的版本包含了在公开数据集上训练和评估语言模型的完整框架。OpenELM采用了一些技术优化，如RMSNorm预归一化、旋转位置嵌入、分组查询注意力、SwiGLU FFN和Flash注意力等，以提高训练和推理效率。苹果还使用了动态分词和数据过滤方法，简化了实验流程。

苹果此次开源行为罕见，代码在GitHub上获得了超过1100颗星。目前，大模型领域分为开源和闭源两大阵营，苹果此举可能是效仿谷歌的方式，通过开源吸引用户，再用闭源产品实现商业化。这也显示了苹果进军AI大模型领域的决心。商汤科技联合创始人王晓刚表示，开源对社区发展非常重要，大模型的应用需要社区共同推动。

同时，AI技术持续发展，OpenAI获得了全球第一块DGX H200，英伟达收购了以色列AI基础设施编排和管理服务Run:ai，Cognition完成了1.75亿美元融资。市场方向正在转变，端侧模型、AI应用、行业大模型等将成为新趋势。投资环境变得更加成熟，人们认识到AI技术发展及其应用的复杂性和挑战。