吴恩达关注的Ling-1T背后,蚂蚁Ling 2.0技术报告解密万亿模型开源配方
文章摘要
【关 键 词】 AI模型、开源技术、推理能力、蚂蚁集团、技术报告
蚂蚁集团最新开源模型Ling-1T因其卓越性能引发业界关注,其技术核心在于通过创新的架构设计和训练方法,模糊了推理与非推理模型的界限。该模型在预训练阶段强化思维链(CoT),使其性能直逼顶尖闭源模型。吴恩达在其Newsletter中特别指出,Ling-1T的成功标志着技术转向,其背后是蚂蚁集团近期密集开源的一系列模型,包括Ling-mini-2.0、Ling-flash-2.0和万亿参数的Ling-1T,以及Ring系列推理模型。
Ling-1T的技术突破源于蚂蚁集团发布的58页技术报告《Ling 2.0 Technical Report》,系统阐述了如何构建强大、统一且可扩展的模型基础。报告核心设计哲学是”Every Activation Boosted”,即确保每次激活都提升模型推理能力。这一理念通过四大支柱实现:架构与Scaling Law、预训练与中训练、后训练对齐以及基础设施优化。
在架构方面,Ling 2.0系列采用高稀疏、细粒度MoE架构,激活率低至3.5%,实现7倍计算效率提升。更关键的是Ling Scaling Laws,这套”AI风洞”系统能通过小规模实验预测万亿参数模型的性能。报告详细解释了架构决策,如激活8个专家的最优性验证,以及原生集成MTP强化数学与代码能力的设计。
预训练阶段贯彻”推理优先”原则,Ling Math和Ling Code高质量数据集占比从32%提升至46%。创新性的中训练阶段引入大量思维链数据,提前激活模型推理潜能。训练技术方面,采用WSM调度器取代传统学习率衰减,为下游任务带来1-2%性能提升。
后训练对齐阶段采用行业首创的句子级RL算法LPO,在复杂推理任务上实现约10%性能提升。针对开放性任务设计的GAR机制通过相对排名降低评估噪声。这些创新建立在一个可扩展的统一奖励模型系统上,能并发处理40K异构奖励请求。
基础设施方面,Ling-1T是目前最大规模完全使用FP8训练的开源模型,在保持性能的同时提升15%训练速度。异构细粒度管线调度策略解决模块计算特性差异问题,提升40%以上训练吞吐量。报告也坦诚分享了计算与通信重叠尝试失败的教训,强调算法与系统协同优化的必要性。
Ling 2.0技术报告的发布超越了单一模型价值,为社区提供了一套完整的、可扩展至万亿规模的AI基础模型标准作业流程。在AI领域日益闭源的背景下,这份报告展示了通过极致工程、精准预测和创新算法实现高效扩展的路径,体现了蚂蚁集团推动开放协作的技术决心。
原文和模型
【原文链接】 阅读原文 [ 4540字 | 19分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




