上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」
文章摘要
【关 键 词】 多模态模型、幻觉抑制、难度感知、偏好优化、成本效率
多模态模型在感知、理解与生成等方面的能力持续提升,但其输出中仍普遍存在与客观事实不一致的内容,即多模态幻觉现象。当模型面对信息缺失、语义含混或视觉细节复杂的场景时,往往会通过臆测进行补全,从而捏造并不存在的病灶、物体或情节。这类问题并非偶发失误,而是偏好优化训练过程中逐渐积累的结构性偏差所致:模型更容易从数量庞大、差异明显的简单样本中获得学习收益,却对真正困难、歧义性强的样本关注不足,结果是在复杂真实场景中的可靠性受到限制。
上海科技大学何旭明教授团队在论文《DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations》中提出了DA-DPO框架,通过预训练模型对样本难度进行估计,并在训练过程中动态调整样本权重,使模型的学习重点自适应地转向复杂且更易出错的样本。该方法不依赖额外人工标注,也无需训练独立的奖励模型或引入复杂的强化学习流程,具有显著的成本效率。在多项多模态评测基准上,DA-DPO不仅显著降低了幻觉发生频率,同时在很大程度上保持甚至提升了模型的整体理解与推理能力。
实验结果表明,DA-DPO在降低多模态大语言模型幻觉现象方面实现了稳定而显著的改进,同时在保持甚至提升模型综合能力方面也展现出明显优势。在针对物体幻觉的测试中,模型明显减少了对图像中并不存在物体或属性的臆造描述,尤其在复杂场景和存在遮挡的情况下,DA-DPO对随意性、想象式回答的抑制效果更加突出。在综合能力评估方面,DA-DPO在减少幻觉的同时,能够基本保持甚至提升模型的通用多模态能力,尤其在多轮对话、复杂视觉推理以及多选视觉问答等任务上表现更为稳健。
研究团队通过训练过程中的奖励信号动态分析进一步揭示了上述结果背后的机制。DA-DPO的训练曲线显示困难样本的奖励提升更加显著,简单样本的增长趋缓,从而有效缩小不同难度样本之间的奖励差距。这表明训练权重确实由简单样本向困难样本转移,最终转化为对细粒度幻觉的显著抑制以及综合能力的稳定保持。
这项研究具有重要的学术意义和实际应用价值。从理论层面看,DA-DPO的提出将样本难度作为显式因素引入偏好优化目标之中,从根本上重构了偏好学习问题的视角。从方法和工程实现角度看,DA-DPO具有成本低、效率高、可落地性强的特点。从应用层面来看,多模态模型的幻觉问题直接影响其在安全关键任务中的实用性与可靠性,DA-DPO在不显著削弱模型能力的前提下有效降低幻觉发生频率,从而显著提升模型在此类高风险领域中的可信度与安全性。
原文和模型
【原文链接】 阅读原文 [ 3156字 | 13分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



