文章摘要
【关 键 词】 AI模型、推理增强、数学竞赛、性能测试、开源工具
阿里最新发布的推理模型Qwen3-Max-Thinking引起广泛关注,该模型是Qwen3-Max-Preview的推理增强版本,目前仍处于训练阶段。尽管是中间检查点模型,但结合工具使用功能并提升测试计算规模后,在AIME 2025、HMMT等高水平数学推理竞赛中已实现100%的正确率。用户可通过Qwen Chat及阿里云API试用当前版本,后续将随训练进展推出更多更新。这一表现让国外网友感叹模型已具备真正的思考能力,而非机械输出答案。
Qwen3-Max-Preview作为阿里迄今规模最大、能力最强的语言模型,参数量超1万亿,预训练数据达36T tokens。其支持262144个token的上下文窗口,并具备上下文缓存功能。基准测试显示,该模型在SuperGPQA、AIME25等多个测试中表现优于Claude Opus 4、Kimi K2和Deepseek-V3.1等竞争对手。外媒测试还发现其规避了常见的大语言模型缺陷,响应速度甚至快于ChatGPT。尽管未被定位为推理模型,用户反馈显示其在基础算术、24点谜题等任务上优于多款SOTA模型,并能解决GPT-5 Thinking和Gemini 2.5 Pro无法解答的题目。
模型已被集成到开源编程工具AnyCoder中作为默认选项,但不同于通义千问以往的开源策略,Qwen3-Max-Preview未基于开源许可证发布,开发者需通过付费API获取使用权。阿里云推出分级定价方案,费率随输入token规模变化。该模型专为复杂推理、代码编写、处理结构化数据和创意任务设计,适用于企业与科研场景。
Qwen3-Max-Thinking实现了思考与非思考模式的融合,在思维模式下智能体编程、常识推理及跨领域推理能力显著增强。当前早期预览版仅支持文本到文本模态,输出为”限时免费”。开发者实测反馈显示,其在简单提示词场景表现优于复杂提示词,部分推理题表现超过GPT-5 Thinking。AI云工程师Fahd Mirza测试其创建p5.js独立HTML文件时,首次尝试即近乎完美完成任务。但也有开发者指出其在编程类任务表现一般,短期内不建议用于此类工作。
详细测试结果显示,模型在”大象牙膏”实验中生成效果一般,提示词完成度较差;过山车测试表现尚可但存在穿模问题;鞭炮连锁爆炸测试完全不合格;Python倒水程序测试达到及格水平。前端开发能力测试中,瀑布流图片网站布局混乱,远不如GLM-4.6的表现。不过,有用户利用该模型成功创作黑色侦探小说,认为其展现出前沿AI应有的强大推理能力。
原文和模型
【原文链接】 阅读原文 [ 1953字 | 8分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆




