全球首个英伟达含量为0的万亿模型,成了海外开发者的抢手货

AIGC动态2小时前发布 QbitAI
54 0 0
全球首个英伟达含量为0的万亿模型,成了海外开发者的抢手货

 

文章摘要


【关 键 词】 国产算力万亿参数长上下文混合专家全链训推

美团近期推出LongCat-2.0模型,该模型采用混合专家架构,总参数规模达到1.6万亿,原生支持100万超长上下文这是首个在国产算力上实现从训练到推理全链路闭环的万亿参数模型,标志着国产芯片已具备支撑先进大模型持续训练与部署的能力。在长文本处理方面,模型提出了LongCat稀疏注意力机制,通过整理零散访问、共享索引结果以及两阶段筛选等三项优化,显著提升了100万上下文的处理速度。同时,引入N-gram Embedding技术将参数前移,使模型在初始阶段即可识别高频词组,有效降低了专家间的通信开销并提升了准确率。

在实际测试中,该模型展现出优秀的综合性能。面对中英文混杂的数万字体量语料,模型能够精准定位隐藏信息并进行清晰的分析推理。在代码开发任务中,模型可自主拆解修改计划、重写底层架构并独立完成项目迁移。此外,其在智能体场景下表现出强大的统筹与自主搜索能力,能独立生成高质量的结构化报告。在完全匿名的状态下,该模型以Owl Alpha的名称在开源平台上取得了全球月调用量第一的成绩,充分验证了其在真实流量环境下的市场认可度。

面对大规模国产算力集群的工程挑战,研发团队搭建了自动化故障处理体系以应对频繁的硬件故障,并重写了适配国产芯片的算子和并行方案。这些底层优化结合零计算专家等架构设计,大幅提升了硬件利用率,并有效降低了训练与推理成本。美团通过提前布局国产算力,全面打通了全链路闭环,证明了国产芯片训练的万亿规模模型能够获得全球开发者的广泛接受,并为未来构建物理世界的人工智能底座奠定了坚实基础。

原文和模型


【原文链接】 阅读原文 [ 2986字 | 12分钟 ]
【原文作者】 量子位
【摘要模型】 qwen3.7-plus
【摘要评分】 ★★★★☆

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...