Qwen“半成品”推理模型刷下AIME满分，俘获大批国外开发者！实测碾压GPT-5 Thinking、还能写侦探小说

491 0 0

文章摘要

阿里最新发布的推理模型Qwen3-Max-Thinking引起广泛关注，该模型是Qwen3-Max-Preview的推理增强版本，目前仍处于训练阶段。尽管是中间检查点模型，但结合工具使用功能并提升测试计算规模后，在AIME 2025、HMMT等高水平数学推理竞赛中已实现100%的正确率。用户可通过Qwen Chat及阿里云API试用当前版本，后续将随训练进展推出更多更新。这一表现让国外网友感叹模型已具备真正的思考能力，而非机械输出答案。

Qwen3-Max-Preview作为阿里迄今规模最大、能力最强的语言模型，参数量超1万亿，预训练数据达36T tokens。其支持262144个token的上下文窗口，并具备上下文缓存功能。基准测试显示，该模型在SuperGPQA、AIME25等多个测试中表现优于Claude Opus 4、Kimi K2和Deepseek-V3.1等竞争对手。外媒测试还发现其规避了常见的大语言模型缺陷，响应速度甚至快于ChatGPT。尽管未被定位为推理模型，用户反馈显示其在基础算术、24点谜题等任务上优于多款SOTA模型，并能解决GPT-5 Thinking和Gemini 2.5 Pro无法解答的题目。

模型已被集成到开源编程工具AnyCoder中作为默认选项，但不同于通义千问以往的开源策略，Qwen3-Max-Preview未基于开源许可证发布，开发者需通过付费API获取使用权。阿里云推出分级定价方案，费率随输入token规模变化。该模型专为复杂推理、代码编写、处理结构化数据和创意任务设计，适用于企业与科研场景。

Qwen3-Max-Thinking实现了思考与非思考模式的融合，在思维模式下智能体编程、常识推理及跨领域推理能力显著增强。当前早期预览版仅支持文本到文本模态，输出为”限时免费”。开发者实测反馈显示，其在简单提示词场景表现优于复杂提示词，部分推理题表现超过GPT-5 Thinking。AI云工程师Fahd Mirza测试其创建p5.js独立HTML文件时，首次尝试即近乎完美完成任务。但也有开发者指出其在编程类任务表现一般，短期内不建议用于此类工作。

详细测试结果显示，模型在”大象牙膏”实验中生成效果一般，提示词完成度较差；过山车测试表现尚可但存在穿模问题；鞭炮连锁爆炸测试完全不合格；Python倒水程序测试达到及格水平。前端开发能力测试中，瀑布流图片网站布局混乱，远不如GLM-4.6的表现。不过，有用户利用该模型成功创作黑色侦探小说，认为其展现出前沿AI应有的强大推理能力。