
文章摘要
【关 键 词】 AI模型、蚂蚁集团、开源技术、推理能力、万亿参数
蚂蚁集团正式发布万亿参数思考模型Ring-1T,标志着开源AI迈入万亿参数时代。该模型在数学竞赛、逻辑推理和医疗问答等多项基准测试中刷新开源SOTA(State-of-the-Art)水平,部分表现直逼闭源巨头如GPT-5-Thinking。在AIME 25、HMMT 25等数学竞赛中,Ring-1T保持领先;在OpenAI的HealthBench医疗问答测评中表现惊艳;在Arena-Hard-v2高难度真实用户查询测试中,成功率高达81.59%,接近GPT-5-Thinking的82.91%。与预览版相比,正式版在数学、逻辑推理和医疗问答上的准确率均有显著提升。
Ring-1T不仅专注于推理能力,还展现出强大的通用性。在综合榜单Arena-Hard-v2和创意写作任务CreativeWriting-v3中,其表现与DeepSeek、Qwen等顶级开源模型同属第一梯队。模型基于Ling-1T的同款架构,通过20T高质量语料预训练和强化学习优化,特别在后期预训练中引入40%以上的高推理密度语料,显著提升了“动脑”能力。技术层面,Ling 2.0架构采用稀疏MoE、FP8混合精度等创新,结合IcePop算法和自研ASystem框架,解决了万亿级MoE模型长周期强化学习的稳定性问题。
实测显示,Ring-1T在复杂任务中表现突出。例如,在模拟地火飞行、小球碰撞实验等编程任务中,其代码生成和物理模拟能力优于同类模型;在数字密码算术谜题和数学积分求解中,展现出系统化逻辑推理能力;文本生成方面,模仿古文的创作也体现了高度拟人化的语言风格。此外,模型在国际奥赛IMO 2025测试中达到银牌水平,并在ICPC编程竞赛中超越Gemini 2.5 Pro。
蚂蚁集团同步开源了模型权重和训练工具,包括强化学习系统AReaL,推动社区协作。此次发布是蚂蚁百灵大模型2.0阶段的重要里程碑,此前已推出18款模型,包括两款万亿参数基座(Ling-1T和Ring-1T)。尽管存在身份认知偏差、语种混杂等待优化问题,但通过工程化路径,蚂蚁验证了从算力红利向“推理红利”迁移的可能性,为AGI发展提供了可复制的技术范式。
原文和模型
【原文链接】 阅读原文 [ 3862字 | 16分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆