AI进化太快了！MIT和斯坦福已经让它自己设计Harness

614 0 0

文章摘要

在三大核心测试领域，Meta-Harness均取得显著领先。 在在线文本分类任务中，其自动发现的架构以48.6%的平均准确率大幅超越ACE和MCE等人工方案，并将上下文消耗降低至后者的五分之一以下；在分布外（OOD）数据集上，仍以73.1%的平均准确率稳居第一。数学推理方面，系统在无任何人工干预下重构BM25检索栈，于IMO级别难题上平均提升4.7分，且在五个不同基础模型上均稳定优于手工调校的基准。长周期编程测试中，基于Opus 4.6的Meta-Harness架构通过率达76.4%，超越顶级人类团队开发的Terminus-KIRA；在轻量级Haiku 4.5模型上优势更为明显，通过率高出第二名2.1个百分点。

系统展现出强大的自主纠错与策略演化能力。 智能体在早期迭代中尝试混合修改方式导致性能下滑后，能迅速通过日志分析定位干扰源，剔除无效变更并转向增量式安全修改。整个优化过程未预设硬编码规则，仅依赖基础领域引导，却能在数小时内生成高可读性、跨平台兼容的高质量代码。这预示未来AI系统开发可能演变为一种“元编程”范式：开发者只需设定边界与工具接口，其余交由AI在试错中自主编译与演化。