微软开源最强小参数大模型—Phi-3 Mini

AIGC动态2年前 (2024)发布 AIGCOPEN

3,509 0 0

文章摘要

本文介绍了微软在AIGC领域的最新动态，着重关注了微软发布的小参数大语言模型Phi-3-mini。Phi-3-mini是微软Phi家族的第4代模型，拥有38亿参数，但训练数据高达3.3T tokens，性能超强。该模型对内存占用较少，可以在类似iPhone 14等手机上部署使用，并且每秒能生成12个tokens数据。微软在预训练Phi-3-mini时使用了合成数据，帮助模型更好地理解语言架构和特定业务场景术语。Phi-3-mini采用了transformer架构，支持4K和128K上下文窗口，是同类小模型中第一个支持128K的开源产品。微软还表示将在未来几周内发布70亿参数的Phi-3-small和140亿参数的Phi-3-medium两款小模型，其中Phi-3-medium的性能可媲美Mixtral 8x7B和GPT-3.5，但资源消耗更少。

微软在过去几年中推出了一系列小参数模型，如Phi-1、Phi-1.5和Phi-2，这些模型在编程领域和数学测试中表现出色。Phi-2在没有人类反馈强化学习和指令微调的情况下，击败了130亿参数的Llama-2和70亿参数的Mistral，性能甚至超过了700亿参数的Llama-2。Phi-3系列集合了之前三代所有的优秀技术特征，并使用了海量高质量数据集和创新的训练方法，成为目前最强的开源小参数模型。

Phi-3-mini的高性能得益于微软使用的高质量训练数据集，包括经过质量筛选的网络公开文档、教育数据、编程代码，以及合成数据创建的教科书式数据和聊天格式的监督数据。微软采用了迭代训练策略，帮助Phi-3-mini更好地吸收合成数据，进一步强化模型的理解和生成能力。Phi-3-mini在多个知名基准测试平台中进行了综合测试，结果显示在语言理解、编码和数学等方面的性能超过了参数更大的模型，整体表现出色。

总的来说，微软在AIGC领域的不断探索和创新，特别是在小参数大语言模型方面的发展，展现出了强大的技术实力和前瞻性思维。未来，随着Phi系列模型的不断完善和发布，将为开发者和研究人员提供更多高性能、低资源消耗的选择，推动人工智能技术的发展和应用落地。