杨植麟交卷，Kimi 万亿参数K2开源：Agent能力紧逼Anthropic，延展DeepSeek，上手实测如何？

79 0 0

文章摘要

月之暗面在2025年7月11日深夜悄然开源了Kimi K2模型，这一举动标志着其在人工智能领域的重要进展。Kimi K2是一个万亿参数规模的混合专家（MoE）模型，激活参数为320亿，专为智能体任务（agentic tasks）优化。与以往的长文本处理能力不同，K2在自主编程、工具调用和数学推理等能力维度上表现出色，紧逼Claude 4 Opus、OpenAI GPT-4.1等闭源模型。官方展示了K2在旅行规划和薪资分析等复杂任务中的自主执行能力，通过多次工具调用和数据分析，展现了其强大的智能体功能。

Kimi K2在SWE Bench Verified（编程）、Tau2（智能体）、AceBench（工具调用）等基准测试中表现优异，成为开源模型中的佼佼者。月之暗面此次开源了两个版本：Kimi-K2-Base基础模型，适合后续研究和定制化开发；Kimi-K2-Instruct指令微调模型，可直接用于通用聊天和智能体场景。然而，K2的运行门槛较高，官方部署指南明确指出，最小硬件需求是一个由16块GPU组成的集群，这限制了个人开发者和中小团队的本地化部署。

在技术层面，Kimi K2采用了DeepSeek开发和依赖的MLA（多头潜在注意力）架构，专家数增加到了384个，激活专家保持在8个。Kimi此前在优化器上的投入也支撑了K2的平稳训练，特别是在大规模训练中，Muon优化器和MuonClip技术的应用解决了不稳定性问题。Kimi K2的发布体现了“模型即Agent，Agent即模型”的理念，通过端到端的强化学习和自我评价机制，提升了模型的泛化表现。

实测显示，Kimi K2在生成打字游戏、音乐节日历清单和上证指数数据分析等任务中表现出色，展现了其强大的自主编程和工具调用能力。然而，在风格化文本生成方面，K2的表现仍有待提升，尽管其文本表达风格向R1靠拢，但在模仿知名脱口秀演员付航的表演风格时，生成的段子缺乏幽默感。

Kimi K2的开源不仅是技术上的突破，更是月之暗面在智能体领域的重要战略布局。通过开源，Kimi K2有望在社区中获得广泛的应用和反馈，进一步推动其在智能体能力上的优化和创新。未来，Kimi K2可能会像Claude那样衍生出更多功能，预训练模型的进展最终将反哺到其C端产品上，进一步提升其市场竞争力。