杨植麟带 Kimi 团队深夜回应:关于 K2 Thinking 爆火后的一切

AI-Agent2小时前发布 ai-front
42 0 0
杨植麟带 Kimi 团队深夜回应:关于 K2 Thinking 爆火后的一切

 

文章摘要


【关 键 词】 月之暗面Kimi K2KDA机制开源模型智能体

月之暗面发布的Kimi K2 Thinking模型以其“模型即Agent”的设计理念引发行业震动。该模型通过创新的KDA(Kimi Delta Attention)注意力机制,有效解决了MoE模型长上下文一致性差和KV缓存大的问题,其核心思想将在下一代Kimi K3中延续。团队在Reddit的AMA活动中透露,视觉语言模型已在开发中,同时澄清网传“460万美元训练成本”并非官方数据。

K2 Thinking在多项全球基准测试中表现卓越,超越GPT-5和Claude 4.5等顶级闭源模型。其突破性在于原生INT4量化与超稀疏MoE架构的结合,使推理速度提升两倍的同时保持精度。KDA机制通过增量更新和门控设计,减少75%的KV缓存开销,支撑了模型在200多次连续工具调用中的稳定表现。在HLE、BrowseComp等测试中,该模型展现出类似人类研究员的“思考-搜索-验证”能力,尤其在博士级数学题解中完成23步推理循环。

编码能力上,K2 Thinking实现了从代码生成到工程闭环的跨越,在SWE-Bench等多环境开发任务中达到71.3%的准确率。写作方面虽存在语言啰嗦(slop问题)和情绪表达温和的局限,但团队承诺将优化文本节奏与人性化张力。模型设计强调“用时间换深度”的Test-Time Scaling策略,使其在复杂任务中能自主拆解步骤并持续修正。

技术层面,量化感知训练(QAT)和MoE权重量化的组合,解决了INT4精度下的稳定性难题。KDA与MoE的协同既扩展模型容量又保障思维连贯性,形成“更大更稳”的双重优势。这种架构-量化-调度的系统优化,标志着大模型发展从单纯规模扩张转向效率与智能的平衡。K2 Thinking的推出,使开源阵营首次具备与闭源巨头全面抗衡的“智能体级”能力,其自主规划、多工具调用的特性重新定义了AI协作边界。

原文和模型


【原文链接】 阅读原文 [ 3062字 | 13分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...