
文章摘要
【关 键 词】 人工智能、开源模型、数学推理、强化学习、算法优化
蚂蚁集团正式推出万亿参数思考模型Ring-1T并全面开源,该模型在9月30日预览版基础上扩展了大规模可验证奖励强化学习(RLVR)训练,提升自然语言推理能力,并通过RLHF训练完善通用能力。Ring-1T在多项任务榜单上表现均衡,尤其在数学推理领域取得突破性进展。通过接入多智能体框架AWorld,模型使用纯自然语言推理成功解出IMO2025赛题中的4道题目,达到银牌水平,成为首个能获IMO奖的开源系统。在几何证明题中,其第三次尝试接近满分,并在高难度第六题中答案收敛至与Gemini 2.5 Pro相同。
模型在通用能力测试中表现优异,在人类偏好对齐测试Arena-Hard V2中以81.59%成功率位居开源模型榜首,接近GPT-5-Thinking(High)的82.91%。医疗问答HealthBench测评中,Ring-1T也取得开源领域最高分。针对万亿参数模型训练中的最大难题——训推精度差异,蚂蚁团队采用自研”棒冰(icepop)”算法,通过带掩码的双向截断技术有效控制分布差异,确保长序列训练稳定性。
技术实现方面,蚂蚁团队开发了高性能强化学习系统ASystem,专门优化万亿参数模型的显存管理和权重交换问题,实现单机显存碎片秒级回收和零冗余权重交换。Ring-1T基于Ling 2.0架构的1T base模型进行后训练,采用稀疏MoE架构、FP8混合精度等技术实现高效训练。通过LongCoT-SFT、RLVR和RLHF多阶段训练,显著提升模型复杂推理、指令跟随和创意写作能力。
这是蚂蚁百灵团队在万亿思考模型上的首次尝试,团队表示将持续完善模型性能。目前模型可通过HuggingFace、魔搭社区下载,并支持在线体验。蚂蚁百灵大模型已形成从160亿到1万亿参数的产品矩阵,随着Ling-1T和Ring-1T两款万亿参数模型的发布,标志着百灵大模型正式进入2.0阶段。
原文和模型
【原文链接】 阅读原文 [ 1007字 | 5分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★☆☆☆☆