
文章摘要
【关 键 词】 开源模型、长上下文、多语言支持、推理优化、架构改进
Hugging Face最新推出的30亿参数模型SmolLM3,以其全面开源和卓越性能成为小模型领域的标杆。该模型支持128k长上下文处理,并在多语言任务中展现出色表现,同时提供双推理模式(think/no_think)的灵活切换。通过完全公开训练数据、代码和构建方法,SmolLM3为开发者提供了可复现的研究范本,显著降低了反向工程的门槛。
在架构设计上,SmolLM3基于Llama架构进行了多项关键改进。采用GQA(Grouped Query Attention)机制替代传统多头注意力,降低KV缓存开销的同时保持性能;引入NoPE编码技术,每隔4层移除旋转位置编码,显著提升长文本处理能力。此外,文档内注意力屏蔽和稳定性优化等措施进一步增强了模型的训练效率和鲁棒性。预训练阶段采用三阶段策略,累计使用11.2万亿token的混合数据,涵盖网页文本、数学内容和代码,并通过动态调整数据比例优化模型表现。
中期训练阶段通过长上下文扩展和推理适应两个专项训练,分别使用1000亿和350亿token数据,使模型在RULER等长文本基准测试中达到优异水平。研究团队发现,仅通过NoPE编码和调整RoPE参数即可实现64k上下文的稳定处理,而YARN技术则支持将上下文窗口外推至128k。推理中间训练采用ChatML格式的对话模板,有效注入通用推理能力,为后续微调奠定基础。
后训练流程采用创新的多阶段对齐方案。监督微调阶段通过合成数据弥补推理轨迹标注的不足,使用Qwen3-32B生成补充数据;偏好对齐则采用改进的APO(Anchored Preference Optimization)方法,平衡推理与非推理模式的性能。针对长上下文能力在对齐过程中的衰减,团队通过模型合并技术(0.9:0.1权重比)成功保留关键特性。评估显示,SmolLM3在3B参数类别中全面领先,逼近4B模型性能,尤其在数学推理和编程任务中表现突出。多语言测试覆盖五种欧洲语言,模型在知识、翻译等任务中保持一致性优势。
双模式指令模型通过/think和/no_think指令实现灵活控制,支持工具调用功能,并在AIME、LiveCodeBench等复杂任务中展现显著优势。实际部署时,用户可通过transformers或vllm库加载模型,系统提示中嵌入元数据控制推理行为。这一开源方案不仅验证了工程细节对模型性能的决定性作用,更为社区提供了从预训练到对齐的完整技术路线。
原文和模型
【原文链接】 阅读原文 [ 3301字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★