ChatGPT无法取代人类程序员！ IEEE 35页论文测出困难编码正确率仅为0.66%

AIGC动态2年前 (2024)发布 AIera

4,027 0 0

ChatGPT无法取代人类程序员！ IEEE 35页论文测出困难编码正确率仅为0.66%

文章摘要

一项发表在IEEE TSE期刊上的研究对ChatGPT在代码生成任务上的表现进行了系统评估，使用了LeetCode题库作为数据集。研究结果显示，ChatGPT生成可用代码的能力存在显著差异，成功率波动在0.66%到89%之间，这一结果受到任务难度、编程语言等因素的影响。尽管在某些情况下，AI能够生成比人类更优质的代码，但同时也暴露出了一些安全性问题。

研究由格拉斯哥大学助理教授Yutian Tang主导，测试了GPT-3.5在5种编程语言（C、C++、Java、JavaScript和Python）中解决LeetCode平台上的728个编码问题，以及应对18个CWE（常见缺陷枚举）场景的能力。研究发现，在2021年之前的问题上，ChatGPT的表现较好，无论是简单、中等还是困难问题，其生成可运行代码的成功率分别约为89%、71%和40%。然而，对于2021年之后的问题，即使是简单级别的问题，ChatGPT有时也无法正确理解问题的含义，导致成功率大幅下降。

评估过程包括构造合适的提示发送给ChatGPT，然后利用LeetCode平台的在线判断功能和CodeQL工具手动分析CWE漏洞，以检验代码的正确性。如果ChatGPT在5轮对话内未能生成通过测试的代码，则任务被认为失败。研究指出，AI代码生成可以在一定程度上提升开发效率并自动化软件工程，但同时也强调了认识这类模型的优势和不足的重要性，以便合理应用并改进生成技术。

此外，有网友提出疑问，是否意味着人类程序员的工作仍不可替代，而其他人则指出，随着GPT-4等更先进的模型的出现，编码能力可能已大幅提升。尽管如此，对GPT-3.5模型的评估为理解当前AI在编程领域的能力和局限提供了重要视角。