北大王选所彭宇新团队:让多模态大模型学会「看懂物种关系」丨CVPR 2026
文章摘要
【关 键 词】 视觉识别、多模态、层级分类、TARA、领域知识
当前多模态大模型推动视觉理解能力提升,已在多种视觉任务中实现较高水平的识别推理,但在复杂层级视觉识别任务中仍存在明显不足。现实世界诸多视觉概念天然具备层级结构,比如生物分类、商品分类、医学诊断的多层级标签体系,这类任务要求模型不仅识别具体类别,还要理解不同类别的层级关系与语义结构,但现有多数视觉模型基于扁平分类框架训练,层级预测时容易出现分类路径不一致、层级关系冲突等问题。同时,开放世界环境下,模型需要识别未知类别,现有模型面对训练数据未覆盖的类别时难以合理推断,利用已有知识帮助模型理解类别层级结构、在有限数据下推断未知类别,已经成为视觉智能研究的重要问题。北大王选所彭宇新团队提出TARA方法,该方法通过引入生物基础模型中的分类学知识,将其与多模态模型的中间表征进行对齐,使模型能够学习到具有层级结构的视觉表示,从而提升层级视觉识别任务的一致性表现,增强未知类别识别任务的泛化能力。
研究通过多个代表性公开数据集、多项指标验证了方法的有效性。在已知类别识别任务中,iNaturalist-2021数据集的实验结果显示,不同规模的Qwen系列多模态基础模型引入该方法后,层级一致性准确率、叶节点准确率等多项层级评价指标均获得明显提升,证明TARA能够稳定提升不同规模多模态模型在层级分类任务中的整体性能。在未知类别识别测试中,TerraIncognita数据集的结果显示,已知和未知类别场景下,Order F1、Family F1均得到明显提升,证实TARA不仅提升已知类别识别能力,还可显著增强模型面对未知物种时的泛化能力。进一步分析显示,TARA能够帮助模型学习更具判别力的视觉特征,还可提升复杂视觉问答任务的准确率,同时仅增加少量投影层,计算开销较小,还能够加速模型训练收敛。
该研究具备多重价值,它解决了现有多模态模型层级识别能力不足的问题,可帮助模型在识别过程中保持不同层级的逻辑关系,提升层级分类一致性。在方法层面,该方法通过中间表征对齐将领域知识注入多模态模型的思路,不仅可应用于生物分类任务,还能推广到医学影像分类、商品分类、知识图谱推理等其他具有层级结构的应用场景,为多模态大模型与领域知识结合提供了具有普适性的技术路径。此外,将层级知识引入模型训练的方式,有助于多模态大模型获得结构化知识理解能力,推动可理解复杂结构关系的通用视觉智能系统发展。(全文约760字)
原文和模型
【原文链接】 阅读原文 [ 3584字 | 15分钟 ]
【原文作者】 AI科技评论
【摘要模型】 doubao-seed-2-0-lite-260215
【摘要评分】 ★★★☆☆



