AI进化太快了!MIT和斯坦福已经让它自己设计Harness

AIGC动态2小时前发布 AIGCOPEN
51 0 0
AI进化太快了!MIT和斯坦福已经让它自己设计Harness

 

文章摘要


【关 键 词】 大模型智能体自动优化代码演化架构搜索


在三大核心测试领域,Meta-Harness均取得显著领先。 在在线文本分类任务中,其自动发现的架构以48.6%的平均准确率大幅超越ACE和MCE等人工方案,并将上下文消耗降低至后者的五分之一以下;在分布外(OOD)数据集上,仍以73.1%的平均准确率稳居第一。数学推理方面,系统在无任何人工干预下重构BM25检索栈,于IMO级别难题上平均提升4.7分,且在五个不同基础模型上均稳定优于手工调校的基准。长周期编程测试中,基于Opus 4.6的Meta-Harness架构通过率达76.4%,超越顶级人类团队开发的Terminus-KIRA;在轻量级Haiku 4.5模型上优势更为明显,通过率高出第二名2.1个百分点。

系统展现出强大的自主纠错与策略演化能力。 智能体在早期迭代中尝试混合修改方式导致性能下滑后,能迅速通过日志分析定位干扰源,剔除无效变更并转向增量式安全修改。整个优化过程未预设硬编码规则,仅依赖基础领域引导,却能在数小时内生成高可读性、跨平台兼容的高质量代码。这预示未来AI系统开发可能演变为一种“元编程”范式:开发者只需设定边界与工具接口,其余交由AI在试错中自主编译与演化。

原文和模型


【原文链接】 阅读原文 [ 3344字 | 14分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 qwen3-max-2026-01-23
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...