无需训练，如何提升黑箱VLM？CARPRT用「类别感知」给出答案

AIGC动态2个月前发布 almosthuman2014

380 0 0

文章摘要

视觉语言模型在零样本分类任务中展现巨大潜力，但预测精度高度依赖描述模板的构建方式。现有集成方案多采用全局共享参数配置，忽略了指针对特定分类对象的语义适配差异。在无法获取模型内部结构的封闭场景下，这种设计会导致系统性匹配偏差，成为精度提升的主要障碍。类别感知提示词重加权技术通过为不同目标定制差异化权重矩阵，实现了更精准的图文语义对齐。该机制打破了全局均等化假设，通过剥离与目标关联性弱的描述词干扰，有效抑制了指针错配带来的预测漂移。

理论推导将零样本推理转化为条件概率优化过程，并借助伪标签统计与似然建模完成权重量化分析。数学验证明确指出，旧有无视类别特性的计算逻辑仅为新策略的表达子集，引入专属感知维度能够大幅拓宽特征匹配的解释边界。在实现路径上，算法采用无依赖的双步推理架构，先计算图像、模板与候选目标的相似度基准，随后通过统计聚合自动推导类别专属分布，并在决策时执行动态融合，全程未动用梯度更新或人工标注数据。

跨架构与多数据集的评估数据显示，该策略在通用识别与细粒度任务中均稳定优于传统均值及加权基线。消融对比表明，核心性能增益源于重构了指针对象粒度的建模逻辑。由于计算过程严格独立于底层参数更新，该模块可直接作为标准化组件无缝适配各类闭源框架。在算法架构日益固化与封闭的应用背景下，通过重组既有输出分布调控模型行为被证实切实有效，该方向验证了优化问题建模深度比单纯扩充参数或数据更具工程性价比。