微软开源Phi-3.5：支持手机、平板电脑，性能超Llama 3.1

1,846 0 0

文章摘要

【关键词】 微软开源、Phi-3.5模型、Transformer、多语言支持、资源优化

微软公司近期开源了Phi-3.5系列模型，该系列包含三种模型：mini指令微调、专家混合和视觉微调。Phi-3.5系列模型以其较小的参数量却展现出超越其他知名开源模型的性能，成为开源大模型排行榜中唯一入选前10名的小参数模型。该系列模型专为算力和硬件受限的中小企业和个人开发者设计，适用于手机、平板电脑等移动设备。

Phi-3.5系列模型基于Transformer解码器，拥有3072维隐藏层、32个注意力头和32层架构，支持4K默认上下文长度，并通过LongRope技术扩展至128K，能够处理更长的文本序列，支持包括中文、英文、法文在内的多种语言。模型采用了组查询注意力机制和块稀疏注意力模块，有效提升了训练和推理速度。

Phi-3.5系列模型的性能得益于其使用了超过3.3万亿token的高质量训练数据集，该数据集由公开网络数据和合成数据组成，经过严格筛选。在安全优化方面，模型采用了监督微调、近端策略优化和直接偏好优化等方法，以减少非法和错误内容的输出，使输出更符合人类预期。

Phi-3.5-mini指令微调模型支持128K上下文，能够生成文本/代码、进行数学推理、解读长文档、总结会议摘要等。在多个测试基准中，其整体性能超越了Llama-3.1-8B和Mistral-7B等模型。

Phi-3.5视觉模型除了文本生成功能外，还支持图像识别、光学字符识别、图表/表格解读、图像比较、剪辑视频摘要等。在多个视觉基准测试中，其性能超越了多个知名开闭源模型，仅次于GPT-4o。

Phi-3.5专家混合模型拥有420亿参数，但在推理过程中仅有66亿参数处于激活状态，实现了资源消耗低的同时性能大幅度超越同类开闭源模型。该模型可以根据场景的复杂任务，调动不同的专家模块来处理，实现资源的合理分配。

专家混合模型的技术原理在于其由多个小型网络或专家组成，每个专家负责处理特定类型的任务。模型通过“门控网络”决定哪些专家需要被激活，以及每个专家对最终输出的贡献。这种架构的优势在于其可扩展性，可以通过增加专家或优化门控网络来提升模型在特定领域的表现。

微软开源的Phi-3.5系列模型为AIGC领域带来了新的选择，特别是对于资源受限的中小企业和个人开发者，提供了高性能、低资源消耗的解决方案。同时，该系列模型在安全性、多语言支持和可扩展性方面的表现，也为AIGC技术的发展和应用提供了新的可能性。