9万行Python重写Claude Code，CheetahClaws要验证”Harness缩放”

48 0 0

文章摘要

AI Agent的能力提升不仅依赖于底层大语言模型的进步，更取决于围绕其构建的整体系统架构。UC Berkeley的研究者提出从模型缩放定律向系统缩放定律转变的理念，强调应将Agent视为一个系统缩放问题来研究与评估。模型缩放主要改进基础模型本身，而系统缩放则致力于优化记忆、上下文构建、技能路由、编排以及验证与治理等周围架构。 研究者将Agent系统拆解为推理基底、记忆存储、上下文构建器、技能路由层、编排循环和验证与治理层六个交互组件，指出系统的整体性能由这些组件在时间跨度上的协同作用决定。

为了将系统缩放理念落地于工程实践，研究者开源了CheetahClaws框架。该项目使用Python重写了核心编码循环，支持任意模型的灵活切换，并在上下文治理、记忆管理和技能路由等方面进行了深度优化。CheetahClaws通过四层协作机制实现上下文压缩，采用带置信度和来源元数据的双作用域持久记忆，并支持多Agent分发与严格的安全权限控制。 与面向特定供应商或纯个人助理的工具不同，该框架专为研究导向设计，优先保证透明性与可复现性，使执行框架层面的设计选择变得显式且可探讨。

在评估与进化方面，现有的基准测试往往将模型能力与系统设计混淆，无法全面反映长跨度和多Agent场景下的真实表现。下一代评估基准需要额外测量记忆检索精度、最小上下文效率、跨子Agent通信保真度、长轨迹漂移以及自主执行下的安全性等系统级维度。此外，成熟的智能体不仅需要执行任务，还应具备纵向进化的能力，其记忆、技能和偏好等组件的更新策略必须区分在线适应与需审查验证的部分，并留下可追溯的审计痕迹。只有将模型缩放与系统缩放两条路径并行推进，AI Agent才能实现真正的能力跃升与可靠部署。