COLING24|自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim

模型信息


【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★☆☆

COLING24|自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim
 

文章摘要


【关 键 词】 多模态自适应剪枝效率加速

本文介绍了哈工大联合度小满推出的针对多模态模型的自适应剪枝算法 SmartTrim,该算法旨在解决基于 Transformer 结构的视觉语言大模型(VLM)在实际环境中部署时遇到的计算开销问题。研究发现VLM存在显着冗余,不同实例之间的冗余程度差异大,因此提出了SmartTrim框架,通过对tokenattention head进行剪枝来提高模型的效率。具体而言,SmartTrim包括跨模态感知的Token修剪器和模态自适应的注意力头修剪器,同时引入了自蒸馏和课程训练策略来提高小模型的能力。在模型训练过程中,通过优化任务相关的训练目标和计算开销相关的训练目标来权衡性能和效率。实验结果表明,SmartTrim能够将原始模型加速2-3倍,同时性能下降最小,相比其他加速方法具有显著优势。此外,SmartTrim能够根据不同实例的复杂性自适应地分配计算开销,为简单实例分配更少的计算,为困难实例分配更多计算。未来,该方法将结合到度小满轩辕大模型中。通过本文的介绍,读者可以了解SmartTrim算法的原理、方法和实验结果,以及其在VLM加速方面的优势和应用前景。

原文信息


【原文链接】 阅读原文
【阅读预估】 1721 / 7分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...