
文章摘要
Kimi在172天后发布了全新的Kimi K2基础大模型,采用MoE架构,总参数达到1T,激活参数为32B,尤其在代码、Agent和数学推理任务上展现了领先能力。此次发布不仅开源了模型,还同步上线了Web端、App和API服务。Kimi K2在多个基准评测中创造了开源模型的全新SOTA成绩,特别是在SWE Bench Verified、Tau2和AceBench等测试中表现突出。
Kimi K2的核心能力集中在代码生成、Agent任务和数学推理上。在前端开发任务中,Kimi K2支持粒子系统、可视化和3D场景等复杂表现形式,能够生成支持昼夜循环的山川峡谷3D景观和3D粒子星系模拟。在Agent任务中,Kimi K2具备稳定的复杂指令解析能力,能够将需求自动拆解为可直接执行的ToolCall结构,例如帮助用户规划全年追星计划,包括演唱会、机票、酒店和旅行安排,并生成日历和发送邮件。
此次Kimi K2的开源策略引发了广泛讨论,提供了两个版本:Kimi-K2-Base和Kimi-K2-Instruct。Kimi-K2-Base是未经过指令微调的基础预训练模型,适合科研与自定义场景;Kimi-K2-Instruct则是通用指令微调版本,在大多数问答与Agent任务中表现卓越。Kimi遵循修改版MIT协议,允许自由使用,但在月活跃用户超过1亿或月收入超过2000万美元的产品中,需在用户界面上显示“Kimi K2”。
在技术细节方面,Kimi K2采用了多项创新技术,包括MuonClip优化器、大规模Agentic Tool Use数据合成和通用强化学习。MuonClip优化器提升了训练稳定性和token使用效率,Kimi K2完成了15.5T token的平稳训练,全程无loss spike。此外,Kimi K2通过大规模生成多轮工具使用场景的合成pipeline,覆盖了数百领域和数千工具,并通过自我评价机制解决了不可验证任务的奖励稀缺问题。
在实测中,Kimi K2展现了强大的代码生成和理解能力,能够根据简单提示词生成功能完善的网页和物理模拟程序。尽管在某些任务中(如演唱会规划)存在工具调用功能尚未正式上线的问题,但整体表现依然展现了Kimi的技术实力。
此次发布被视为Kimi对DeepSeek冲击波的回应。Kimi K2的开源策略和技术创新表明,Kimi并未放弃自研大模型,而是通过打造更强的开源大模型,重新证明其技术领先性。在AI智能助手市场竞争日益激烈的背景下,Kimi的回归不仅是对自身技术的自信,也是对行业格局的重新定义。
原文和模型
【原文链接】 阅读原文 [ 2190字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★