战胜100多位NLP研究人员！杨笛一团队最新百页论文：首次统计学上证明，LLM生成的idea新颖性优于人类

AIGC动态10个月前发布 AIera

2,021 0 0

战胜100多位NLP研究人员！杨笛一团队最新百页论文：首次统计学上证明，LLM生成的idea新颖性优于人类

文章摘要

【关键词】 LLM评估、创意生成、科研实验、自然语言处理、智能体技术

斯坦福大学的研究团队在一项为期一年的大规模实验中，对大型语言模型（LLMs）在科学研究创意生成方面的能力进行了评估。研究结果表明，LLMs在产生新颖想法方面超过了人类专家，但在想法的可行性上稍显不足。

实验设计严谨，旨在控制可能的干扰因素，如研究领域、想法的格式和评估过程。研究人员招募了超过100名高水平的自然语言处理（NLP）研究人员，他们来自36个不同机构，大多数是博士和博士后。实验要求参与者撰写新想法，并进行了盲审。

研究将科研想法评估分为三个子部分：想法本身、书面报告和专家评估。为了确保评估的一致性，研究人员设计了一个模板来规定想法提案的结构和详细程度，并使用风格标准化提示来统一写作风格。

在想法书面报告方面，研究人员从资助申请指南中获得灵感，制定了一个详细的模板，包括标题、问题陈述、动机、方法、实验计划、测试用例和备选计划等。为了减少写作风格差异，所有想法都被转换为统一的写作和格式化风格。

评审和评估过程则遵循了AI领域会议的评审标准，定义了新颖性、兴奋度、可行性和预期效果四个评估指标，每个指标都有1-10的评分和文本理由。

在想法生成智能体方面，研究人员利用检索增强生成（RAG）技术，使智能体能够检索与研究主题相关的论文，以便在生成新创意时有据可依。智能体首先生成一系列对Semantic Scholar API的函数调用，然后使用Claude-3-5-Sonnet模型进行论文检索和评分排序。

创意生成过程中，LLM为每个研究主题生成了4000个种子创意，并通过排序器选取出高质量的创意。为了去除重复，使用Sentence-Transformers进行编码和余弦相似度计算。最后，通过成对比较任务和瑞士制比赛系统进行创意排名。

研究还探讨了LLM自我评估的不足和生成过程中缺乏多样性的问题。尽管LLM在新颖性上优于人类，但在可行性方面还有待提高。研究人员提出了端到端的研究设计，招募研究人员将这些想法转化为完整的项目，以进一步探索LLM在科学研究中的潜力。

原文和模型

【原文链接】 阅读原文 [ 2153字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # LLM评估 # 创意生成 # 智能体技术 # 科研实验 # 自然语言处理

文章版权归作者所有，未经允许请勿转载。

2024年AI大模型有哪些发展趋势

admin

4,204

走近李生教授：培养出周明、王海峰等数位AI科学家，NLP国际最高奖项得主的科研之路

AI前线

1,814

挖掘「缝合」的潜力：CapaBench 揭示 LLM 智能体中各个模块的作用

AI科技评论

1,175

DenseMamba：大模型的DenseNet时刻，Mamba和RetNet精度显著提升

机器之心

1,889

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

机器之心

1,251

图文详解Transformer为什么如此强大

AI大模型实验室

2,138

暂无评论

暂无评论...

战胜100多位NLP研究人员！杨笛一团队最新百页论文：首次统计学上证明，LLM生成的idea新颖性优于人类

文章摘要

原文和模型

o1突发内幕曝光？谷歌8月论文已揭示原理，大模型光有软件不存在护城河

o1方法性能无上限！姚班马腾宇等数学证明：推理token够多，就能解决任意问题

相关文章

暂无评论

热门网址

热门文章

战胜100多位NLP研究人员！杨笛一团队最新百页论文：首次统计学上证明，LLM生成的idea新颖性优于人类

文章摘要

原文和模型

o1突发内幕曝光？谷歌8月论文已揭示原理，大模型光有软件不存在护城河

o1方法性能无上限！姚班马腾宇等数学证明：推理token够多，就能解决任意问题

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章