GAIR Paper 103｜上海交大联合腾讯提出 Token 级别幻觉优化，实现大模型幻觉精准消除

43 0 0

文章摘要

大语言模型在医疗、金融等高风险场景部署时面临严重的幻觉问题。先导实验揭示，幻觉在词元层面极其稀疏，但在回答层面却非常普遍。传统的响应级强化学习方法会对整条回答进行统一打分，导致少量错误词元使大量正确内容受到错误惩罚。这不仅降低了幻觉消除的效果，还会诱导模型生成更短、更保守的回答以规避风险，从而引发奖励黑客问题并严重牺牲回答的信息量。

为解决这一挑战，研究人员提出了一种名为BALTO的全新强化学习框架。该框架的核心理念是精准惩罚出错的词元，同时给予正确事实词元正向激励，以保持整体优化信号的平衡。其实施过程包含两个阶段：首先是细粒度幻觉词元检测，通过提取最小粒度的可验证事实声明并与参考文档比对，精准定位到最小的错误词元子集；其次是平衡的词元级信用分配，为幻觉词元分配负向惩罚，为忠实事实词元分配正向补偿，中性词元则不参与优化。这种机制实现了响应内零和平衡，引导模型将概率质量从幻觉内容重新分配到忠实内容上，而不是直接压制整条回答的生成概率。

在理论层面，该框架被证明具备方差压缩和全阶段优化效率两大优势，其梯度方差仅与幻觉词元数量成正比，且优势值始终有界，确保了训练全程的稳定与高效。在多个基准数据集上的系统评估表明，BALTO是唯一在忠实度和信息量之间实现一致最优权衡的方法。相较于传统基线方法，该框架的策略梯度更加稳定，仅需更新极少部分模型参数即可达到极高的忠实度，并在训练早期展现出最快的收敛速度。消融实验也证实了其自适应平衡机制的关键作用。消除幻觉的本质并非压制回答，而是通过词元级检验与平衡信用分配精准地重新分配概率质量，从而在不损失信息量的前提下有效纠正模型的事实性错误。