千问版Gemini3,来了

AIGC动态2小时前发布 Si-Planet
49 0 0
千问版Gemini3,来了

 

文章摘要


【关 键 词】 AI模型代码生成技术评测体感交互工具调用

阿里于1月26日正式发布千问旗舰推理模型Qwen3-Max-Thinking,其总参数超万亿,预训练数据量高达36T Tokens,在多项权威评测中刷新全球纪录。该模型在数学推理AIME 25和HMMT 25上获得国内首个双满分,并在“人类最后的测试”HLE中得分58.3,大幅超过GPT-5.2-Thinking和Gemini 3 Pro。这一发布的时间点选择在AI行业竞争激烈的关键阶段,阿里显然意在争夺“国产第一个Gemini 3”的称号。

在实际测试中,Qwen3-Max-Thinning的表现呈现出明显的场景依赖性。在电商相关任务中,如构建水果电商网站,模型能够一次性完整实现商品分类、购物车和结算功能,展现出对淘宝天猫场景数据的深度适应能力。然而,在其他类型任务中,成功率则不够稳定,需要多次调整提示词才能获得理想结果。

一个更具挑战性的测试是体感控制打气球游戏。模型成功搭建了游戏基础框架,包括天空背景、气球运动、UI显示等功能。交互效果设计令人印象深刻,实现了手指追踪、捏合射击、击中特效和连击反馈等完整流程。但实际体验中暴露出瞄准精度问题,手指与屏幕坐标映射存在偏差,影响了游戏的可玩性。

Qwen3-Max-Thinking最显著的突破在于其“思考方式”的创新。模型采用全新的测试时扩展机制,改变了传统AI同时生成多个答案再投票的做法,转而模拟人类的错题修正过程。这种方法不仅提升了推理性能,还提高了计算效率。在工具调用方面,模型通过三步训练法将工具使用能力内化为“肌肉记忆”,使其在HLE测试中比Gemini高出12分,特别擅长处理需要连续使用多个工具的复杂问题。

与Gemini依赖外部API框架的传统方式不同,Qwen3将工具使用能力直接训练进模型中,实现了更快速、更流畅的工具调用体验。这种设计使模型超越了单纯的代码生成器,具备了工程直觉,能够根据需求自动优化性能、简化实现或添加容错机制。这种能力的提升标志着AI从工具向协作者的关键转变。

原文和模型


【原文链接】 阅读原文 [ 1670字 | 7分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...