文章摘要
【关 键 词】 类别树识别、分层视觉、表征对齐、TARA方法、生物分类
本文提出一种名为TARA(Taxonomy-Aware Representation Alignment)的分类感知表征对齐方法,旨在解决多模态大模型在分层视觉识别任务中缺乏类别树知识导致的三层核心问题:同层判别性差、跨层一致性差与新类泛化性差。研究指出,当前生成式大模型虽在细粒度识别上表现优异,但因未编码类别树结构,难以实现从“界—门—纲—目—科—属—种”等层级逐步推导的精准识别。尤其当预测结果出现如“鹦鹉目-裸鼻雀科”这类父子关系错误时,暴露了其缺乏层级约束的缺陷。
类别树结构知识缺失导致模型无法兼顾类内共性与类间差异,在粗粒度层次易忽视个体差异,在细粒度层次又难以区分高度相似物种。为解决此问题,北京大学彭宇新教授团队将判别式大模型(如BioCLIP系列)所学的类别间关系与类内分布信息作为监督信号,引导生成式大模型学习具备完整分类学上下位结构的视觉表征。具体而言,TARA设计了两个对齐模块:一是分层视觉表征对齐——使大模型中间层特征与生物基础模型的视觉特征空间一致;二是自由粒度类别表征对齐——让大模型输出答案首个词元与对应真实类别文本向量对齐,从而支持不同识别层次(如“目”或“种”)的动态选择。
实验表明,该方法显著提升了多个主流大模型在iNaturalist植物与动物数据集上的分层识别效果,不仅优化了最终细粒度类别的准确率,更实现了从高层级到低层级的逐层提升,有效增强各层级内部相似类别的分辨能力,并确保相邻层级满足严格父子关系逻辑。在新类泛化测试中,针对TerraIncognita数据集中大量未见物种,尤其是科学界尚未正式描述的稀有物种,模型仍可依靠类别树先验总结子类共性特征,构建用于父级识别的判别性依据,大幅提高对无样本支撑新类的识别能力。训练阶段采用No Thinking RFT微调策略联合优化模型与映射层,而推理时则无需依赖辅助模型,保持高效性与实用性。相关论文已被CVPR 2026接收,并已开源代码及部署工具,为生物多样性识别与智能分类系统提供了可落地的技术路径。
原文和模型
【原文链接】 阅读原文 [ 2357字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★☆☆



