小模型推理极限在哪里？微博开源3B小模型，比肩顶级闭源

39 0 0

文章摘要

微博新开源的30亿参数模型VibeThinker-3B在数学竞赛和编程实战中展现出卓越性能，将小模型在特定能力维度的表现推向极限。该模型在AIME26数学竞赛中取得94.3分，结合测试时扩展策略提升至97.1分，并在未见过的LeetCode周赛中达到96.1%的首次提交通过率。在IMO-AnswerBench等高难度基准测试中，VibeThinker-3B以极小的参数量挤进了千亿乃至万亿参数顶级大模型的性能区间，整体表现进入第一梯队推理模型行列。

在训练流程方面，VibeThinker-3B采用了光谱到信号后训练范式，通过层层叠加的步骤优化模型能力。首先进行基于课程的两阶段监督微调，利用多样性探索蒸馏保留多种解题路径。随后应用多领域推理强化学习，在单一长上下文窗口中保留完整的长跨度推理轨迹。接着通过离线自蒸馏，筛选高质量推理轨迹训练统一的学生模型。最后通过指令强化学习提升模型在用户提示上的可控性，使其兼具强大的推理能力与优异的指令遵循表现。

基于VibeThinker系列的研发成果，研究团队提出了参数压缩与覆盖假说。该假说认为不同能力对参数规模的依赖方式存在根本差异，可验证推理属于高度可压缩的参数密集型能力，小模型在反馈机制明确的领域有机会逼近前沿水平。相比之下，开放域知识和长尾场景理解等能力依赖大规模参数进行广泛覆盖，难以被压缩。这一发现表明，小型语言模型与大型语言模型并非替代关系，而是互补关系。在结构清晰、反馈可靠的领域，小模型通过极致的推理优化，完全能够成为独立的发展路径，为人工智能模型的扩展策略提供了新的思路。