解决智能体手工构造难题! 浙大&腾讯提出 ReCreate,从零自动构建领域智能体
文章摘要
【关 键 词】 AI智能体、自我优化、经验驱动、脚手架设计、自动化构建
AI 的「自我制造」时代正在到来。当前,基座模型的能力虽强大,但真正决定智能体可靠性的关键在于其脚手架设计——包括提示词、工作流编排、工具调用、失败反思和记忆组织等模块。优质的智能体脚手架能将模型能力转化为高效的任务执行,而粗糙的设计则可能导致盲目试错甚至偏离目标。然而,传统手工搭建脚手架的方式面临高昂成本和性能不稳定的双重挑战:细分领域需专人长期优化,且工程师水平差异导致迭代效果参差不齐。研究表明,仅更换脚手架即可解决 SWE-bench Verified 中 37% 的错误。
针对这一问题,ReCreate 框架提出了一种革命性方案:通过分析智能体的交互经验自主优化脚手架,实现“用智能体构建智能体”。其核心突破在于将传统依赖性能指标的“黑箱优化”转变为基于交互轨迹的“白箱调试”。例如,智能体在数据科学任务中误用训练集评估模型,或在软件工程中因操作顺序错误生成空补丁,这些细节通过完整执行日志被精准定位,进而转化为规则补充或流程调整。框架包含三大技术支柱:经验存储与检索系统(索引关键事件如测试失败)、推理归因机制(将失败原因映射为具体改进)和分层更新策略(从个体任务提炼通用规则)。实验显示,ReCreate 在四大领域实现显著提升:数据科学任务通过率最高提升15%,数学领域数论任务达100%通过率,且成本较传统方法降低36%-82%。
ReCreate 的差异化优势体现在三方面:其一,不依赖预定义模块池,能从零构建智能体;其二,通过技能(skills)迁移实现跨智能体知识复用;其三,仅需少量任务批次即可收敛,例如Django项目优化仅需4轮经验积累。消融实验验证了其组件的必要性——移除交互轨迹或环境状态会直接导致性能下降8.3%和3.2%。值得注意的是,框架效果高度依赖ReCreate-Agent的推理能力:使用Claude-4.5-opus时全面超越人类设计,而弱模型版本则表现不佳,印证了强推理能力是白箱优化的关键。
这一成果标志着AI向“自我进化”迈出实质性一步。智能体不再被动接受人类设计,而是通过实践试错、反思沉淀和迭代成长,逐渐逼近人类学习本质。未来,ReCreate 或将成为小众科研场景和工业快速迭代任务的通用解决方案——开发者仅需提供基础环境,即可获得专业级智能体,大幅降低开发门槛。研究团队进一步指出,随着模型能力突破临界点,智能体的创造可能从专家专属转向AI自身本能,这一趋势正在重塑我们使用大模型的方式。
原文和模型
【原文链接】 阅读原文 [ 4565字 | 19分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆



