文章摘要
【关 键 词】 大模型、幻觉机制、神经元、过度服从、AI可靠性
清华大学研究团队首次确认了大语言模型中存在与幻觉直接关联的特定神经元(H-Neurons),揭示了幻觉产生的底层神经机制。 研究发现,在数十亿参数的模型中,仅需不到0.1%的极少数神经元就能准确预测幻觉行为,这些神经元在预训练阶段就已形成,并与”过度服从“行为密切相关。当模型面对无法回答的问题时,这些神经元会驱动模型优先生成流畅但错误的回答,以满足人类对答案的期待。
研究采用神经元贡献度度量(CETT)技术,在Llama-3.1、Mistral-7B等主流模型中发现幻觉神经元具有惊人的稀疏性和泛化能力。在Llama-3.3-70B模型中,仅通过万分之一的神经元就能在虚构知识检测中达到96.7%的准确率,表明这些神经元捕捉到了超越特定数据的共性机制。实验证实,幻觉本质上是AI”过度服从”的表现——模型为满足生成流畅回答的预期,宁愿牺牲真实性、安全性或逻辑一致性。
通过缩放这些神经元的激活强度,研究人员实现了对模型行为的精确调控。 抑制这些神经元可显著降低幻觉率和谄媚倾向,而过度激活则会导致模型安全防线崩溃。研究还发现,幻觉机制早在预训练阶段就已固化,现有的指令微调仅是在表面覆盖对话规范,未能改变底层计算逻辑。参数规模较小的模型对神经元干预更为敏感,而大型模型展现出更强的内在稳健性。
这项研究为治理幻觉提供了新思路。基于神经元的实时监控和干预,有望将幻觉检测从事后检查转变为主动防御,但需平衡减少幻觉与保持模型有用性之间的关系。研究成果不仅解释了大模型幻觉的神经基础,更为实现可靠、透明的人工智能提供了精确的干预靶点,标志着对AI黑箱理解的重大突破。
原文和模型
【原文链接】 阅读原文 [ 2634字 | 11分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆




