蚂蚁Ring-1T正式登场,万亿参数思考模型,数学能力对标IMO银牌

文章摘要
【关 键 词】 开源模型、万亿参数、推理能力、强化学习、数学竞赛
蚂蚁集团近期密集开源多款大模型,其中万亿级思考模型Ring-1T的发布尤为引人注目。该模型在多项高难度基准测试中展现出与闭源巨头正面对话的实力,成为开源体系下闭源级性能的又一次实证。其正式版通过大规模可验证奖励强化学习(RLVR)和人类反馈强化学习(RLHF)的完整训练流程,实现了预览版基础上的全面性能跃升。
在数学、编程、逻辑推理等八项核心测试中,Ring-1T不仅刷新多项开源SOTA纪录,部分任务表现更逼近GPT-5等闭源旗舰模型。特别是在国际数学奥林匹克(IMO)测试中,模型首次尝试便解出4题达到银牌水平;在ICPC世界总决赛模拟中,解题数量超越Gemini-2.5-Pro。测试数据显示,该模型在ARC-AGI-v1等复杂推理任务中的稳定性与跨领域适应力实现显著突破,尽管部分编程任务表现与早期版本持平,但整体波动控制在极小范围。
技术实现层面,团队创新性地采用IcePop算法解决MoE模型训练中的梯度偏差问题。通过”双向截断+Masked Clipping”机制,有效阻断坏梯度传播,使万亿参数模型的强化学习稳定性提升3倍以上。配套的自研ASystem框架采用SingleController+SPMD架构,结合显存池化与GPU直连技术,实现权重秒级交换和10K/s量级的沙箱评测吞吐。
实际应用测试显示,Ring-1T在代码生成、逻辑推理和创意写作等场景均展现出色能力。从完整实现Flappy Bird游戏到解析复杂逻辑谜题,模型表现出精准的任务理解与执行能力。其生成的播客文案能有机融合史实与叙事,体现较强的创造性表达。不过测试也发现模型在身份认知和中英文混杂场景仍存在改进空间。
蚂蚁此次开源策略不仅涉及模型本身,更包括AReaL等底层训练框架。这种全栈开放模式,标志着AI竞争进入”基础设施赋能”的新阶段。通过将强化学习工程能力开源,蚂蚁正推动行业从单纯性能比拼转向协同进化的生态建设。随着RLVR等技术的持续迭代,万亿参数模型在复杂认知任务中的潜力有望进一步释放。
原文和模型
【原文链接】 阅读原文 [ 3886字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★