
文章摘要
【关 键 词】 机器学习、开源工具、代码生成、智能体、论文复现
PaperCoder是一个多智能体大语言模型(LLM)系统,旨在自动生成机器学习论文中的代码。这一工具的推出源于对2024年NeurIPS、ICML和ICLR等顶级会议论文的统计发现,平均只有21%的论文共享了代码,导致研究成果的复现和构建速度极其缓慢。为了解决这一问题,韩国科学技术院的四位研究人员开发了PaperCoder,通过规划、分析和代码生成三个阶段,分别由专门的智能体处理不同任务,最终完成代码生成工作。实验表明,PaperCoder生成的代码不仅超越了一些现有基准,还获得了77%原顶会论文作者的认可。
PaperCoder的工作流程分为三个主要阶段:规划、分析和代码生成。在规划阶段,系统通过提示词生成总体计划、架构设计、逻辑设计和配置文件。例如,系统提示词要求生成一个详细且高效的计划,以重现论文中描述的实验和方法,并严格遵循论文中的方法、数据集、模型配置、超参数和实验设置。在分析阶段,系统进行全面的逻辑分析,生成文件规范,确保代码与论文的方法论、实验设置和评估标准精确对齐。在代码生成阶段,系统编写优雅、模块化且可维护的代码,遵循Google风格指南,并严格与论文的方法论对齐。
为了验证PaperCoder的有效性,研究人员使用了四个模型及其变体进行实验,包括DS-Coder、Qwen-Coder、DS-Distil-Qwen和o3-mini-high。评估对象包括90篇顶会论文,研究人员构建了Paper2Code基准测试,并使用OpenReview API筛选出有公开GitHub存储库的论文。实验结果显示,在Paper2Code基准测试中,PaperCoder取得了比其他多智能体框架更好的结果。在人类评估中,大约77%的论文原作者将PaperCoder生成的代码作为首选。此外,研究人员发现o3-mini-high与人类判断的相关性最高,因此在实验中大多将其选为评估模型。
PaperCoder的推出为机器学习领域的代码共享和复现提供了新的解决方案,显著提高了代码生成的效率和准确性。通过自动化的多智能体系统,研究人员能够更快地复现和验证论文中的实验,从而加速科学研究的进展。更多细节可查阅相关论文和代码库。
原文和模型
【原文链接】 阅读原文 [ 1747字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆