苹果在小模型上还是非常领先的

AIGC动态2年前 (2024)发布 damoxingLab

3,088 0 0

文章摘要

AI领域中，小模型技术越来越受欢迎，因为这些模型可以在个人设备上运行，无需依赖云端大型数据中心。苹果最近推出了OpenELM项目，包括一系列小型AI语言模型，可以直接在智能手机上运行，目前主要用于概念验证和研究，未来可能成为苹果设备上AI产品的基础。OpenELM模型在Hugging Face平台上可用，虽然遵守苹果特定的示例代码许可，但可以获取源代码。

微软的Phi-3模型与OpenELM类似，旨在实现小型AI模型中的有效语言理解和处理能力，可以在本地设备上运行。Phi-3-mini模型有38亿参数，而OpenELM模型更小，参数范围在2.7亿到30亿之间。相比之下，Meta的Llama 3系列最大模型有700亿参数，OpenAI的GPT-3模型在2020年推出时有1750亿参数。近年来的研究趋势是让小模型达到几年前大模型的能力水平。

OpenELM包括四种预训练模型和四种经过指令调优的模型，最大处理窗口为2048 Token，训练数据集包括约1.8万亿Token。苹果采用“逐层缩放”策略，在模型各层之间更高效地分配参数，提升了模型性能，比Allen AI的OLMo 1B模型提高了2.36%的精确度，只需一半的预训练Token。

苹果发布了用于训练OpenELM的CoreNet库代码，并提供了训练配方，确保模型的可复制性和透明性，推动开放研究。苹果希望通过发布源代码和模型权重，赋能开放研究社区，但也提醒模型在响应用户输入时可能产生不准确、有害、有偏见或令人反感输出的风险。

尽管苹果尚未将这些新的AI语言模型技术整合到消费者设备中，但预计iOS 18更新将包括新的AI功能，利用设备上的处理确保用户隐私。苹果可能会考虑与Google或OpenAI合作，处理更复杂的AI处理任务，以提升Siri的功能。