文章摘要
【关 键 词】 AI模型、多模态、智能体、编程能力、办公效率
月之暗面发布了迄今为止最强的多模态模型Kimi K2.5,该模型在Kimi K2基础上进行了约15万亿视觉与文本混合数据的持续预训练,具备顶尖的编程与视觉能力,并引入了创新的智能体蜂群范式。Kimi K2.5能够自动创建和协调多达100个子智能体组成的蜂群,执行跨1500个工具调用的并行工作流,在HLE、BrowseComp和SWE-Verified等基准测试中以显著低于竞争对手的成本实现强劲性能,相比GPT-5.2在部分测试中节省了5.1至21.1倍成本。
编程能力方面,Kimi K2.5展现出开源模型中最强的表现,尤其擅长前端开发和视觉编程。它能够将对话转化为完整的前端界面,并通过视觉输入生成代码或进行调试。模型通过大规模视觉与文本联合预训练,实现了视觉与文本能力的协同提升。在Kimi Code Bench内部测试中,K2.5较前代K2性能提升了约49%,得分达到57.4。其配套工具Kimi Code支持终端环境运行和IDE集成,具备自主视觉调试能力,可端到端创建艺术化网页。
智能体蜂群技术是Kimi K2.5的核心创新,采用并行智能体强化学习(PARL)训练,通过可训练的编排器智能体动态分解任务,实现子智能体的并行执行。该技术解决了串行坍塌问题,在广泛搜索场景中将端到端运行时间减少80%,关键步骤缩短3-4.5倍。实际应用中,蜂群系统能并行处理100个细分领域的油管创作者搜索任务,输出结构化电子表格。
办公生产力方面,Kimi K2.5显著提升了知识工作效率,能处理文档、电子表格、PDF和幻灯片等多种格式的复杂任务。在AI Office Benchmark和General Agent Benchmark测试中,分别较前代提升59.3%和24.3%的性能。模型可生成万字论文、百页文档,或在几分钟内完成过去需要数天的工作,如创建包含100个镜头的故事板。
基准测试数据显示,Kimi K2.5在多个领域超越主流模型:HLE-Full测试50.2分领先GPT-5.2;OCRBench以92.3分大幅领先;SWE-Bench Multilingual以73.0分超越GPT-5.2;BrowseComp测试智能体蜂群模式达78.4分最高水平。这些进步为开源社区迈向通用人工智能奠定了重要基础,特别是在编码、智能体协作和办公自动化等实际应用场景展现出显著优势。
原文和模型
【原文链接】 阅读原文 [ 3941字 | 16分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



