开源版“Devin”AI程序员炸场：自己分析股票、做报表、建模型

AIGC动态1年前 (2024)更新 QbitAI

2,153 0 0

模型信息

【模型公司】 Anthropic
【模型名称】 claude-3-opus-20240229
【摘要评分】 ★★★★★

文章摘要

本文介绍了由MetaGPT团队联合多所高校共同推出的数据解释器（Data Interpreter），旨在通过增强智能体的任务规划、工具集成以及推理能力，直面数据科学问题的挑战。该解释器提出了三个关键技术：基于分层图结构的动态计划、工具集成与进化以及基于验证与经验驱动的推理。

在基于分层图结构的动态计划方面，Data Interpreter借鉴自动化机器学习中的层次规划技术，通过分层结构将复杂的数据科学问题分解为易于管理的小任务，并进一步将这些任务转化为具体的代码执行动作。这种动态规划方法赋予了Data Interpreter在任务变化时的适应性，有向无环图结构则在监控和处理数据科学问题中的任务依赖关系方面展现出高效性。

在工具集成与进化方面，Data Interpreter提出了工具集成与生成的方法。通过工具推荐与组织，能够根据任务描述进行任务分类，从而有效选择合适的工具集。在执行阶段，Data Interpreter根据工具参数描述、工具方法描述文档的结构化信息，动态嵌入和调整工具参数，以适应任务的具体需求。此外，Data Interpreter还能够通过自我进化，从执行经验中抽象出工具的核心功能，形成通用的代码片段，集成到工具函数库之中。

在基于验证与经验驱动的推理方面，Data Interpreter通过结合基于置信度的自动验证策略，显著提升了其在数据科学问题解决中的推理能力。该策略要求Data Interpreter在执行代码后生成验证代码并执行验证，根据执行验证结果校验任务和实现代码的一致性。在需要更严谨数值反馈的场景中，Data Interpreter可以增加多次独立验证，并通过多次结果的置信度排序来进一步提升效果。另一方面，Data Interpreter利用经验池存储和反思任务执行过程中的经验，能够从过去的成功和失败中学习代码知识，从而在面对新任务时做出更准确的决策。

在实验部分，Data Interpreter在多个数据科学和现实世界任务上进行了评估。在MATH基准测试中，Data Interpreter在计数和概率、数论、初等代数和微积分等四个类别上均取得了最好的成绩。在ML-Benchmark上，Data Interpreter的平均得分高达0.95，远超AutoGen的0.86，提升了10.3%。在开放式任务基准上，Data Interpreter的平均完成率为0.97，与AutoGen相比大幅提高了112%。

在消融实验中，研究人员探讨了相关方法的有效性。基于分层图结构的动态计划显著提高了0.48分，工具的使用带来了额外9.84%的改进。在使用不同尺寸的语言模型进行实验时，更大尺寸的模型展现出与GPT-3.5-Turbo相当的表现，而较小的模型则性能下降较多。此外，随着经验池从1增加至200，平均的debug次数和执行成本均有明显降低，表明经验的累计对于从自然语言描述任务到代码生成能够有明显的帮助。

总的来说，Data Interpreter通过引入动态计划、工具集成与进化以及基于验证与经验驱动的推理等关键技术，在多个数据科学和现实世界任务上取得了优异的表现，展现出其在解决数据科学问题方面的巨大潜力。