北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

620 0 0

文章摘要

当前多模态大模型推动视觉理解能力提升，已在多种视觉任务中实现较高水平的识别推理，但在复杂层级视觉识别任务中仍存在明显不足。现实世界诸多视觉概念天然具备层级结构，比如生物分类、商品分类、医学诊断的多层级标签体系，这类任务要求模型不仅识别具体类别，还要理解不同类别的层级关系与语义结构，但现有多数视觉模型基于扁平分类框架训练，层级预测时容易出现分类路径不一致、层级关系冲突等问题。同时，开放世界环境下，模型需要识别未知类别，现有模型面对训练数据未覆盖的类别时难以合理推断，利用已有知识帮助模型理解类别层级结构、在有限数据下推断未知类别，已经成为视觉智能研究的重要问题。北大王选所彭宇新团队提出TARA方法，该方法通过引入生物基础模型中的分类学知识，将其与多模态模型的中间表征进行对齐，使模型能够学习到具有层级结构的视觉表示，从而提升层级视觉识别任务的一致性表现，增强未知类别识别任务的泛化能力。

研究通过多个代表性公开数据集、多项指标验证了方法的有效性。在已知类别识别任务中，iNaturalist-2021数据集的实验结果显示，不同规模的Qwen系列多模态基础模型引入该方法后，层级一致性准确率、叶节点准确率等多项层级评价指标均获得明显提升，证明TARA能够稳定提升不同规模多模态模型在层级分类任务中的整体性能。在未知类别识别测试中，TerraIncognita数据集的结果显示，已知和未知类别场景下，Order F1、Family F1均得到明显提升，证实TARA不仅提升已知类别识别能力，还可显著增强模型面对未知物种时的泛化能力。进一步分析显示，TARA能够帮助模型学习更具判别力的视觉特征，还可提升复杂视觉问答任务的准确率，同时仅增加少量投影层，计算开销较小，还能够加速模型训练收敛。

该研究具备多重价值，它解决了现有多模态模型层级识别能力不足的问题，可帮助模型在识别过程中保持不同层级的逻辑关系，提升层级分类一致性。在方法层面，该方法通过中间表征对齐将领域知识注入多模态模型的思路，不仅可应用于生物分类任务，还能推广到医学影像分类、商品分类、知识图谱推理等其他具有层级结构的应用场景，为多模态大模型与领域知识结合提供了具有普适性的技术路径。此外，将层级知识引入模型训练的方式，有助于多模态大模型获得结构化知识理解能力，推动可理解复杂结构关系的通用视觉智能系统发展。（全文约760字）