谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了

AIGC动态3周前发布 AIera
86 0 0
谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了

 

文章摘要


【关 键 词】 心智理论LLM能力基准测试递归推理GPT-4表现

研究揭示了在心智理论任务上,大型语言模型(LLM)已达到与人类相近的水平,尤其在更高阶的心智推理上,某些模型甚至超越了人类的表现。具体而言,GPT-4在第六阶的心智理论任务上的准确率达到93%,而人类为82%。这表明,GPT-4不仅能够理解复杂的语言表达,还在推理他人的心理状态上展现出较强的能力。

此次研究引入了一项新的基准测试——多阶心智理论问答(MoToMQA),旨在衡量LLM在递归推理方面的能力。这项测试基于经过验证的记忆任务,并涵盖了2至6阶的心智理论陈述和事实陈述。研究人员精心设计了测试,以确保陈述清晰且无歧义,同时控制故事条件和提示设计,以减少记忆失败或锚定效应的影响。

研究结果表明,在ToM任务上,GPT-4和Flan-PaLM模型表现接近人类,某些条件下甚至更好。特别是GPT-4在第6阶的推理上显著优于人类。在事实任务上,GPT-4和Flan-PaLM同样表现出色,与人类的表现差异不大。

此外,研究还发现响应选项的顺序对LLM的回答有影响,但对于Flan-PaLM、GPT-4和人类来说,这种影响并不显著。值得注意的是,LaMDA模型在所有条件下对所有陈述的回答均为“真”,这表明它未能有效地处理心智理论任务。

总体来看,这些发现标志着在理解复杂的心智理论上,LLM已经取得了显著的进步,并为未来的研究提供了新的方向和挑战。

网易AI智能绘画

原文和模型


【原文链接】 阅读原文 [ 5639字 | 23分钟 ]
【原文作者】 新智元
【摘要模型】 glm-4
【摘要评分】 ★★★★★

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...