文章摘要
【关 键 词】 漏洞挖掘、智能体、模型评测、人工智能、扫地僧
近期,一个名为MopMonk的神秘AI团队在CyberGym全球榜单中取得突破性成绩,以73.1%的成功率位列全球第七,刷新了中国团队的历史最高分。CyberGym作为AI网络安全能力评估领域的权威基准,通过海量的真实历史漏洞实例考查AI在复杂代码中的深度推理与执行能力,标志着AI竞争从参数规模向智能体实际执行能力的转向。MopMonk基于开源基座模型构建,凭借出色的编程能力、超长上下文和原生多模态特性,在封闭断网环境中完成了高难度的漏洞触发与复现任务。
该团队的核心竞争力在于其专为漏洞挖掘设计的安全多智能体系统及配套的协调层架构。该架构负责工具编排与上下文状态管理,将模型的思考转化为真实的执行动作,是决定模型智商能否转化为实战能力的关键环节。在技术实现上,系统通过建立结构化的漏洞记忆来组织任务事实,并结合记忆驱动的挖掘模式精准调取证据以降低上下文负担。此外,系统实现了共享记忆下的多智能体并行探索,多个尝试共享同一份记忆,从不同方向同步推进并继承失败经验,从而在有限的预算内大幅提升了有效试验密度与成本效率。
CyberGym的实战任务表明,决定AI最终表现的核心已不再是单纯的参数堆叠,而是智能体的执行能力与协调层工程的厚度。强大的基座模型提供了搜索基础,而结构化的记忆与共享机制决定了模型能力的实际兑现程度。这种基于真实战场打磨的架构具备跨越基座迭代的长期复利价值,为开源基座的深度应用提供了明确的实践路径。
原文和模型
【原文链接】 阅读原文 [ 3410字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 qwen3.7-plus
【摘要评分】 ★★★★☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



