谷歌DeepMind：GPT-4高阶心智理论彻底击败人类！第6阶推理讽刺暗示全懂了

AIGC动态2年前 (2024)发布 AIera

3,756 0 0

谷歌DeepMind：GPT-4高阶心智理论彻底击败人类！第6阶推理讽刺暗示全懂了

文章摘要

研究揭示了在心智理论任务上，大型语言模型（LLM）已达到与人类相近的水平，尤其在更高阶的心智推理上，某些模型甚至超越了人类的表现。具体而言，GPT-4在第六阶的心智理论任务上的准确率达到93%，而人类为82%。这表明，GPT-4不仅能够理解复杂的语言表达，还在推理他人的心理状态上展现出较强的能力。

此次研究引入了一项新的基准测试——多阶心智理论问答（MoToMQA），旨在衡量LLM在递归推理方面的能力。这项测试基于经过验证的记忆任务，并涵盖了2至6阶的心智理论陈述和事实陈述。研究人员精心设计了测试，以确保陈述清晰且无歧义，同时控制故事条件和提示设计，以减少记忆失败或锚定效应的影响。

研究结果表明，在ToM任务上，GPT-4和Flan-PaLM模型表现接近人类，某些条件下甚至更好。特别是GPT-4在第6阶的推理上显著优于人类。在事实任务上，GPT-4和Flan-PaLM同样表现出色，与人类的表现差异不大。

此外，研究还发现响应选项的顺序对LLM的回答有影响，但对于Flan-PaLM、GPT-4和人类来说，这种影响并不显著。值得注意的是，LaMDA模型在所有条件下对所有陈述的回答均为“真”，这表明它未能有效地处理心智理论任务。

总体来看，这些发现标志着在理解复杂的心智理论上，LLM已经取得了显著的进步，并为未来的研究提供了新的方向和挑战。