小模型推理极限在哪里?微博开源3B小模型,比肩顶级闭源

AIGC动态1小时前发布 AIGCOPEN
39 0 0
小模型推理极限在哪里?微博开源3B小模型,比肩顶级闭源

 

文章摘要


【关 键 词】 开源模型数学推理强化学习参数压缩小模型

微博新开源的30亿参数模型VibeThinker-3B在数学竞赛和编程实战中展现出卓越性能,将小模型在特定能力维度的表现推向极限。该模型在AIME26数学竞赛中取得94.3分,结合测试时扩展策略提升至97.1分,并在未见过的LeetCode周赛中达到96.1%的首次提交通过率。在IMO-AnswerBench等高难度基准测试中,VibeThinker-3B以极小的参数量挤进了千亿乃至万亿参数顶级大模型的性能区间,整体表现进入第一梯队推理模型行列。

在训练流程方面,VibeThinker-3B采用了光谱到信号后训练范式,通过层层叠加的步骤优化模型能力。首先进行基于课程的两阶段监督微调,利用多样性探索蒸馏保留多种解题路径。随后应用多领域推理强化学习,在单一长上下文窗口中保留完整的长跨度推理轨迹。接着通过离线自蒸馏,筛选高质量推理轨迹训练统一的学生模型。最后通过指令强化学习提升模型在用户提示上的可控性,使其兼具强大的推理能力与优异的指令遵循表现。

基于VibeThinker系列的研发成果,研究团队提出了参数压缩与覆盖假说。该假说认为不同能力对参数规模的依赖方式存在根本差异,可验证推理属于高度可压缩的参数密集型能力,小模型在反馈机制明确的领域有机会逼近前沿水平。相比之下,开放域知识和长尾场景理解等能力依赖大规模参数进行广泛覆盖,难以被压缩。这一发现表明,小型语言模型与大型语言模型并非替代关系,而是互补关系。在结构清晰、反馈可靠的领域,小模型通过极致的推理优化,完全能够成为独立的发展路径,为人工智能模型的扩展策略提供了新的思路。

原文和模型


【原文链接】 阅读原文 [ 1628字 | 7分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★☆☆

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...