实测！Qwen下一代基础架构突袭！秒解AIME数学竞赛题，提速10倍+性价比提升10倍

1,113 0 0

文章摘要

【关键词】 Qwen3-Next、模型发布、核心改进、性能表现、开源体验

Qwen团队发布了Qwen3-Next，这是Qwen3.5的抢先预览版，基于此先开源了Qwen3-Next-80B-A3B-Base，其训练成本低且推理吞吐能力强。随后同步开发并发布了Qwen3-Next-80B-A3B-Instruct和Qwen3-Next-80B-A3B-Thinking两大新模型。

Qwen3-Next有4大核心改进：一是混合注意力机制，引入Gated DeltaNet并采用3:1混合策略，同时在标准注意力层引入多项优化设计；二是高稀疏度MoE结构，采用高稀疏度MoE架构，扩展专家数量并采用新组合设计，最大化资源利用率；三是训练稳定性优化，采用Zero-Centered RMSNorm并对norm weight施加weight decay，初始化时归一化MoE router参数；四是多token预测机制，引入原生Multi-Token Prediction机制，对多步推理专项优化。

在性能表现上，Qwen3-Next训练所需GPU Hours少，计算资源需求低，推理效率高。与Qwen3-32B相比，Qwen3-Next-80B-A3B在预填充和解码阶段的吞吐量大幅提升。Qwen3-Next-80B-A3B-Base在多数基准测试中超越Qwen3-32B-Base和Qwen3-30B-A3B。在此基础上开发的Qwen3-Next-80B-A3B-Instruct在多数指标上接近Qwen3-235B-A22B-Instruct-2507，在RULER测试中表现出色；Qwen3-Next-80B-A3B-Thinking在多项基准测试中超过闭源模型Gemini-2.5-Flash-Thinking，部分指标接近Qwen3-235B-A22B-Thinking-2507。

实测Qwen3-Next-80B-A3B推理能力时，它能快速解答AIME数学竞赛题，答案与标准答案吻合；能编写可运行的p5js扫雷游戏代码；还能生成天气卡片。新模型已在魔搭社区和抱抱脸开源，可通过Qwen Chat免费体验，也可调用阿里云百炼平台API服务，但有网友吐槽其名字复杂。