实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍

AIGC动态16小时前发布 QbitAI
81 0 0
实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍

 

文章摘要


【关 键 词】 Qwen3-Next模型发布核心改进性能表现开源体验

Qwen团队发布了Qwen3-Next,这是Qwen3.5的抢先预览版,基于此先开源了Qwen3-Next-80B-A3B-Base,其训练成本低且推理吞吐能力强。随后同步开发并发布了Qwen3-Next-80B-A3B-Instruct和Qwen3-Next-80B-A3B-Thinking两大新模型。

Qwen3-Next有4大核心改进:一是混合注意力机制,引入Gated DeltaNet并采用3:1混合策略,同时在标准注意力层引入多项优化设计;二是高稀疏度MoE结构,采用高稀疏度MoE架构,扩展专家数量并采用新组合设计,最大化资源利用率;三是训练稳定性优化,采用Zero-Centered RMSNorm并对norm weight施加weight decay,初始化时归一化MoE router参数;四是多token预测机制,引入原生Multi-Token Prediction机制,对多步推理专项优化。

性能表现上,Qwen3-Next训练所需GPU Hours少,计算资源需求低,推理效率高。与Qwen3-32B相比,Qwen3-Next-80B-A3B在预填充和解码阶段的吞吐量大幅提升。Qwen3-Next-80B-A3B-Base在多数基准测试中超越Qwen3-32B-Base和Qwen3-30B-A3B。在此基础上开发的Qwen3-Next-80B-A3B-Instruct在多数指标上接近Qwen3-235B-A22B-Instruct-2507,在RULER测试中表现出色;Qwen3-Next-80B-A3B-Thinking在多项基准测试中超过闭源模型Gemini-2.5-Flash-Thinking,部分指标接近Qwen3-235B-A22B-Thinking-2507。

实测Qwen3-Next-80B-A3B推理能力时,它能快速解答AIME数学竞赛题,答案与标准答案吻合;能编写可运行的p5js扫雷游戏代码;还能生成天气卡片。新模型已在魔搭社区和抱抱脸开源,可通过Qwen Chat免费体验,也可调用阿里云百炼平台API服务,但有网友吐槽其名字复杂。

原文和模型


【原文链接】 阅读原文 [ 1457字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...