GAIR Paper 103|上海交大联合腾讯提出 Token 级别幻觉优化,实现大模型幻觉精准消除

AIGC动态1小时前发布 aitechtalk
43 0 0
GAIR Paper 103|上海交大联合腾讯提出 Token 级别幻觉优化,实现大模型幻觉精准消除

 

文章摘要


【关 键 词】 大模型幻觉消除强化学习信用分配概率质量

大语言模型在医疗、金融等高风险场景部署时面临严重的幻觉问题。先导实验揭示,幻觉在词元层面极其稀疏,但在回答层面却非常普遍。传统的响应级强化学习方法会对整条回答进行统一打分,导致少量错误词元使大量正确内容受到错误惩罚。这不仅降低了幻觉消除的效果,还会诱导模型生成更短、更保守的回答以规避风险,从而引发奖励黑客问题并严重牺牲回答的信息量。

为解决这一挑战,研究人员提出了一种名为BALTO的全新强化学习框架。该框架的核心理念是精准惩罚出错的词元,同时给予正确事实词元正向激励,以保持整体优化信号的平衡。其实施过程包含两个阶段:首先是细粒度幻觉词元检测,通过提取最小粒度的可验证事实声明并与参考文档比对,精准定位到最小的错误词元子集;其次是平衡的词元级信用分配,为幻觉词元分配负向惩罚,为忠实事实词元分配正向补偿,中性词元则不参与优化。这种机制实现了响应内零和平衡,引导模型将概率质量从幻觉内容重新分配到忠实内容上,而不是直接压制整条回答的生成概率。

在理论层面,该框架被证明具备方差压缩和全阶段优化效率两大优势,其梯度方差仅与幻觉词元数量成正比,且优势值始终有界,确保了训练全程的稳定与高效。在多个基准数据集上的系统评估表明,BALTO是唯一在忠实度和信息量之间实现一致最优权衡的方法。相较于传统基线方法,该框架的策略梯度更加稳定,仅需更新极少部分模型参数即可达到极高的忠实度,并在训练早期展现出最快的收敛速度。消融实验也证实了其自适应平衡机制的关键作用。消除幻觉的本质并非压制回答,而是通过词元级检验与平衡信用分配精准地重新分配概率质量,从而在不损失信息量的前提下有效纠正模型的事实性错误。

原文和模型


【原文链接】 阅读原文 [ 1837字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★☆☆

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...