做 Harness 踩过的坑。

411 0 0

文章摘要

在同一提示词、模型与任务条件下，不同智能体框架的运行成本可相差六倍，核心差异源于模型之外的工程系统构建。早期技术路径验证表明，向量检索方案因更新成本高、召回率未达实战阈值及额外延迟难以落地；多智能体编排则因上下文交接导致缓存频繁失效，使任务耗时与调用开销成倍上升，基准测试高分无法转化为真实用户体验。工程预算应集中于底层系统稳定性，将智能演进完全交由模型自身完成。

新一代架构围绕缓存局部性与工具集稳定性展开全面重构。通过实施双标记滚动缓冲机制，系统有效应对模型回退带来的缓存断裂风险；系统提示词在会话启动后保持字节级冻结，动态变量以普通消息注入，彻底规避全局缓存失效。能力扩展采用子智能体隔离设计，主进程严格限制工具数量，在防止接口膨胀的同时维持调用链路稳定。上下文压缩摒弃独立模型调用，转而在用户交互空闲期由当前会话直接执行，维持缓存热度并将历史记录压缩至万级词元以内，显著降低长文本注意力损耗。针对复杂文档与网页操作，系统引入脚本自维护机制与本地浏览器接管方案，兼顾功能弹性与架构精简。

放弃检索增强与多节点堆叠，持续深耕缓存命中率、工具可靠性及异步压缩策略，是在模型快速更迭中实现低成本与高稳定性的核心路径。该实践验证了底层工程调优对智能体商业落地的关键价值，明确了高负载应用场景下以基础设施对抗模型迭代周期的技术演进方向。