
文章摘要
百度于6月30日正式开源了文心大模型4.5系列,涵盖10款不同参数规模的模型,包括47B、3B激活参数的混合专家(MoE)模型和0.3B参数的稠密型模型。这些模型已在飞桨星河社区和HuggingFace等平台上线,用户可按照Apache 2.0协议下载部署。此次开源不仅包括预训练权重和推理代码,还实现了框架层与模型层的“双层开源”,标志着百度在人工智能领域的进一步开放与创新。
文心大模型4.5系列是百度于2025年3月16日发布的新一代多模态基础大模型,属于百度人工智能核心产品体系的重要升级版本。此次开源的模型在独立自研模型数量占比、模型类型数量、参数丰富度、开源宽松度与可靠性等关键维度上均处于行业领先位置。特别是基于MoE的A47B和A3B系列,其先进功能由多项关键技术创新支撑,包括多模态异构MoE预训练、可扩展高效的基础设施以及针对特定模态的后训练。
在多模态异构MoE预训练方面,百度团队设计了异构MoE结构,并引入了模态隔离路由机制,采用路由正交损失与多模态token均衡损失双重优化,确保文本与视觉模态特征均得到高效表征,从而提升文本理解生成、图像理解及跨模态推理等任务性能。这些架构设计使得两种模态特征在训练过程中实现相互强化,显著提升了模型的多模态处理能力。
在基础设施方面,百度提出了一种新异构混合并行和分层负载均衡策略,通过节点内专家并行、内存优化流水线调度、FP8混合精度训练和细粒度重计算方法,显著提升了预训练吞吐量。推理方面,团队提出了多专家并行协作方法和卷积码量化算法,实现了4-bit/2-bit无损量化,并引入了具有动态角色切换的PD分解,有效利用资源,提升了ERNIE 4.5 MoE模型的推理性能。
针对特定模态的后训练,团队对预训练模型的变体进行了微调,并针对通用语言理解和生成进行了优化。VLM模型专注于视觉语言理解,支持思考和非思考模式,结合了监督微调、直接偏好优化和统一偏好优化等多种后训练方法,进一步提升了模型的适应性和性能。
文心大模型4.5系列均使用飞桨深度学习框架进行高效训练、推理和部署,模型FLOPs利用率达到47%。实验结果显示,该系列模型在多个文本和多模态基准测试中达到SOTA水平,尤其在指令遵循、世界知识记忆、视觉理解和多模态推理任务上表现突出。在文本模型方面,文心大模型4.5系列在多个主流基准评测中超越DeepSeek-V3、Qwen3等模型;在多模态模型方面,其在视觉感知、视觉常识和多模态推理等评测中优于闭源的OpenAI o1。此外,轻量模型文心4.5-21B-A3B-Base文本模型与同量级的Qwen3相当,文心4.5-VL-28B-A3B多模态模型也是目前同量级最好的多模态开源模型,甚至与更大参数模型Qwen2.5-VL-32B不相上下。
此次文心大模型4.5系列的开源,不仅展示了百度在人工智能领域的深厚技术积累,也为行业提供了高性能、多模态的开源模型选择,进一步推动了人工智能技术的普及与应用。
原文和模型
【原文链接】 阅读原文 [ 1394字 | 6分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆