千问版Gemini3，来了

468 0 0

文章摘要

阿里于1月26日正式发布千问旗舰推理模型Qwen3-Max-Thinking，其总参数超万亿，预训练数据量高达36T Tokens，在多项权威评测中刷新全球纪录。该模型在数学推理AIME 25和HMMT 25上获得国内首个双满分，并在“人类最后的测试”HLE中得分58.3，大幅超过GPT-5.2-Thinking和Gemini 3 Pro。这一发布的时间点选择在AI行业竞争激烈的关键阶段，阿里显然意在争夺“国产第一个Gemini 3”的称号。

在实际测试中，Qwen3-Max-Thinning的表现呈现出明显的场景依赖性。在电商相关任务中，如构建水果电商网站，模型能够一次性完整实现商品分类、购物车和结算功能，展现出对淘宝天猫场景数据的深度适应能力。然而，在其他类型任务中，成功率则不够稳定，需要多次调整提示词才能获得理想结果。

一个更具挑战性的测试是体感控制打气球游戏。模型成功搭建了游戏基础框架，包括天空背景、气球运动、UI显示等功能。交互效果设计令人印象深刻，实现了手指追踪、捏合射击、击中特效和连击反馈等完整流程。但实际体验中暴露出瞄准精度问题，手指与屏幕坐标映射存在偏差，影响了游戏的可玩性。

Qwen3-Max-Thinking最显著的突破在于其“思考方式”的创新。模型采用全新的测试时扩展机制，改变了传统AI同时生成多个答案再投票的做法，转而模拟人类的错题修正过程。这种方法不仅提升了推理性能，还提高了计算效率。在工具调用方面，模型通过三步训练法将工具使用能力内化为“肌肉记忆”，使其在HLE测试中比Gemini高出12分，特别擅长处理需要连续使用多个工具的复杂问题。

与Gemini依赖外部API框架的传统方式不同，Qwen3将工具使用能力直接训练进模型中，实现了更快速、更流畅的工具调用体验。这种设计使模型超越了单纯的代码生成器，具备了工程直觉，能够根据需求自动优化性能、简化实现或添加容错机制。这种能力的提升标志着AI从工具向协作者的关键转变。