又一开源AI神器！将机器学习论文自动转为可运行代码库

641 0 0

文章摘要

PaperCoder是一个多智能体大语言模型（LLM）系统，旨在自动生成机器学习论文中的代码。这一工具的推出源于对2024年NeurIPS、ICML和ICLR等顶级会议论文的统计发现，平均只有21%的论文共享了代码，导致研究成果的复现和构建速度极其缓慢。为了解决这一问题，韩国科学技术院的四位研究人员开发了PaperCoder，通过规划、分析和代码生成三个阶段，分别由专门的智能体处理不同任务，最终完成代码生成工作。实验表明，PaperCoder生成的代码不仅超越了一些现有基准，还获得了77%原顶会论文作者的认可。

PaperCoder的工作流程分为三个主要阶段：规划、分析和代码生成。在规划阶段，系统通过提示词生成总体计划、架构设计、逻辑设计和配置文件。例如，系统提示词要求生成一个详细且高效的计划，以重现论文中描述的实验和方法，并严格遵循论文中的方法、数据集、模型配置、超参数和实验设置。在分析阶段，系统进行全面的逻辑分析，生成文件规范，确保代码与论文的方法论、实验设置和评估标准精确对齐。在代码生成阶段，系统编写优雅、模块化且可维护的代码，遵循Google风格指南，并严格与论文的方法论对齐。

为了验证PaperCoder的有效性，研究人员使用了四个模型及其变体进行实验，包括DS-Coder、Qwen-Coder、DS-Distil-Qwen和o3-mini-high。评估对象包括90篇顶会论文，研究人员构建了Paper2Code基准测试，并使用OpenReview API筛选出有公开GitHub存储库的论文。实验结果显示，在Paper2Code基准测试中，PaperCoder取得了比其他多智能体框架更好的结果。在人类评估中，大约77%的论文原作者将PaperCoder生成的代码作为首选。此外，研究人员发现o3-mini-high与人类判断的相关性最高，因此在实验中大多将其选为评估模型。

PaperCoder的推出为机器学习领域的代码共享和复现提供了新的解决方案，显著提高了代码生成的效率和准确性。通过自动化的多智能体系统，研究人员能够更快地复现和验证论文中的实验，从而加速科学研究的进展。更多细节可查阅相关论文和代码库。