万亿级思考模型，蚂蚁首次开源！20万亿token搅局开源AI

256 0 0

文章摘要

蚂蚁集团正式发布万亿参数思考模型Ring-1T，标志着开源AI迈入万亿参数时代。该模型在数学竞赛、逻辑推理和医疗问答等多项基准测试中刷新开源SOTA（State-of-the-Art）水平，部分表现直逼闭源巨头如GPT-5-Thinking。在AIME 25、HMMT 25等数学竞赛中，Ring-1T保持领先；在OpenAI的HealthBench医疗问答测评中表现惊艳；在Arena-Hard-v2高难度真实用户查询测试中，成功率高达81.59%，接近GPT-5-Thinking的82.91%。与预览版相比，正式版在数学、逻辑推理和医疗问答上的准确率均有显著提升。

Ring-1T不仅专注于推理能力，还展现出强大的通用性。在综合榜单Arena-Hard-v2和创意写作任务CreativeWriting-v3中，其表现与DeepSeek、Qwen等顶级开源模型同属第一梯队。模型基于Ling-1T的同款架构，通过20T高质量语料预训练和强化学习优化，特别在后期预训练中引入40%以上的高推理密度语料，显著提升了“动脑”能力。技术层面，Ling 2.0架构采用稀疏MoE、FP8混合精度等创新，结合IcePop算法和自研ASystem框架，解决了万亿级MoE模型长周期强化学习的稳定性问题。

实测显示，Ring-1T在复杂任务中表现突出。例如，在模拟地火飞行、小球碰撞实验等编程任务中，其代码生成和物理模拟能力优于同类模型；在数字密码算术谜题和数学积分求解中，展现出系统化逻辑推理能力；文本生成方面，模仿古文的创作也体现了高度拟人化的语言风格。此外，模型在国际奥赛IMO 2025测试中达到银牌水平，并在ICPC编程竞赛中超越Gemini 2.5 Pro。

蚂蚁集团同步开源了模型权重和训练工具，包括强化学习系统AReaL，推动社区协作。此次发布是蚂蚁百灵大模型2.0阶段的重要里程碑，此前已推出18款模型，包括两款万亿参数基座（Ling-1T和Ring-1T）。尽管存在身份认知偏差、语种混杂等待优化问题，但通过工程化路径，蚂蚁验证了从算力红利向“推理红利”迁移的可能性，为AGI发展提供了可复制的技术范式。