COLING24｜自适应剪枝让多模态大模型加速2-3倍，哈工大等推出SmartTrim

AIGC动态1年前 (2024)发布 almosthuman2014

2,714 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★☆☆

文章摘要

本文介绍了哈工大联合度小满推出的针对多模态模型的自适应剪枝算法 SmartTrim，该算法旨在解决基于 Transformer 结构的视觉语言大模型（VLM）在实际环境中部署时遇到的计算开销问题。研究发现VLM存在显着冗余，不同实例之间的冗余程度差异大，因此提出了SmartTrim框架，通过对token和attention head进行剪枝来提高模型的效率。具体而言，SmartTrim包括跨模态感知的Token修剪器和模态自适应的注意力头修剪器，同时引入了自蒸馏和课程训练策略来提高小模型的能力。在模型训练过程中，通过优化任务相关的训练目标和计算开销相关的训练目标来权衡性能和效率。实验结果表明，SmartTrim能够将原始模型加速2-3倍，同时性能下降最小，相比其他加速方法具有显著优势。此外，SmartTrim能够根据不同实例的复杂性自适应地分配计算开销，为简单实例分配更少的计算，为困难实例分配更多计算。未来，该方法将结合到度小满轩辕大模型中。通过本文的介绍，读者可以了解SmartTrim算法的原理、方法和实验结果，以及其在VLM加速方面的优势和应用前景。