ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制,显著提升多模态大模型情感理解能力!

AIGC动态8小时前发布 ai-front
67 0 0
ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制,显著提升多模态大模型情感理解能力!

 

文章摘要


【关 键 词】 人工智能多模态情感理解注意力机制人机交互

新一代人工智能发展的重要方向是“情智兼备”,这是迈向通用人工智能的关键一步。人机交互场景中,具备情智的数字人与机器人需要精准解译多模态交互信息,深度挖掘人类内在情感状态,从而实现更具真实感与自然性的人机对话。然而,面对多模态情感数据语义的高度复杂性,如何有效建模跨模态关联关系仍是领域内亟待突破的核心挑战。

快手可灵团队与南开大学在「多模态情感理解」领域完成了开创性研究,成功定位了现有多模态大模型在情感线索捕捉中的关键短板。研究团队从多模态注意力机制的维度切入,提出了新的模块化双工注意力范式,并基于此构建了一个涵盖感知、认知与情感能力的多模态模型‘摩达(MODA)’。该模型在通用对话、知识问答、表格处理、视觉感知、认知分析和情感理解等六大类任务的21个基准测试中均实现了显著性能提升。此外,基于新的注意力机制,‘摩达’在角色剖析与规划演绎等人机交互场景中表现出色。目前,该研究成果已被ICML 2025收录,并获选焦点论文(Spotlight,Top 2.6%)。

现有主流多模态大模型存在模态偏置问题,难以关注细粒度的情感线索。基准测试表明,现有方法在需要细粒度认知和情感理解的高级任务中表现不佳,甚至低于随机猜测水平。例如,在二分类讽刺检测任务中,三个最先进的多模态方法仅能达到50:50的识别准确率。这一现象的根源在于对主导模态的过度关注,从而忽视了辅助模态中蕴含的细粒度线索。研究发现,多模态大模型多个注意力层之间的注意力不一致,即多模态注意力失调现象,表现为注意力分数偏向于文本模态,且注意力的逐层衰减加剧了模态间的差异。

为解决这一问题,研究提出了模块化双工注意力范式,将多模态注意力划分为模态对齐部分和词元焦点修正部分。通过双工注意力对齐和模块化注意力掩码以“对齐后修正”的方式修正存在缺陷的注意力分数。双工注意力对齐包括V-Aligner和T-Aligner,分别负责视觉和语言模态,通过Gram矩阵的嵌入空间基向量进行跨模态语义迁移。模块化注意力掩码则控制词元在变换器层之间的流动,并为多模态大模型引入位置偏差。

实验结果表明,模块化双工注意力范式有效缓解了模态偏置引起的注意力失调问题。在80亿与340亿参数量级的多模态模型中,跨模态注意力差异率由原本的56%与62%显著降低至50%与41%。MODA在通用对话、知识问答、表格OCR、视觉感知四大类任务的16个数据集上展现出明显优势,同时在认知分析和情感理解两大类任务的5个数据集上性能也得到显著提升。

MODA在人机对话场景中展现出强大潜力,能够实时解析用户的微表情、语调及文化背景特征,构建多维人物画像,并深度理解角色动机与情感脉络以自动规划对话策略。例如在心理咨询中识别矛盾情绪并引导倾诉,或在虚拟偶像交互中动态调整角色台词风格。这种能力突破了传统规则式应答的局限,使AI能够像人类导演般“预判剧情走向”,在金融客服、沉浸式娱乐等领域实现有温度的人格化服务。MODA已成功应用于快手可灵数据感知项目,通过细粒度情感感知显著增强了数据分析能力,尤其是在情感变化检测和个性化推荐任务中提升感知精度,有力支撑了可灵视频生成产品的性能。

原文和模型


【原文链接】 阅读原文 [ 3827字 | 16分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...