VLM 实现 10%的精度提高,13.1倍加速!纽约大学新算法让视觉语言模型更小、更快、更准确

AIGC动态5小时前发布 AIGCOPEN
26 0 0
VLM 实现 10%的精度提高,13.1倍加速!纽约大学新算法让视觉语言模型更小、更快、更准确

 

文章摘要


【关 键 词】 人工智能视觉语言模型效率优化矩阵分解量化压缩

纽约大学的研究团队通过创新的QSVD方法,为视觉语言模型(VLM)的效率提升带来了突破性进展。该方法在普通GPU上实现了高达13.1倍的运行速度提升,同时保持模型精度。视觉语言模型作为连接视觉与语言世界的桥梁,在医疗、教育等领域展现出巨大潜力,但其庞大的计算代价长期制约着实际应用。

传统VLM面临的核心瓶颈在于多头注意力机制中的键值缓存(KV Cache)消耗,这导致内存带宽压力剧增。QSVD的创新性体现在三个层面:首先,它将Q、K、V三个权重矩阵拼接为联合矩阵进行统一奇异值分解(SVD),相比单独压缩方案减少了30%的计算量;其次,开发了基于全局排序的秩分配策略,通过校准数据集量化每个奇异值的重要性,实现参数的最优截断;最后,引入与低秩框架深度集成的量化方案,采用双正交矩阵平滑异常值分布,使模型在W4A4极端压缩下仍保持可用精度。

实验数据验证了该方法的优越性。在LLaVA-v1.5 13B模型上,仅SVD压缩阶段(QSVD-noQ)就以46.7%的参数量取得超越原模型2%的准确率,显示低秩近似可能具有抑制幻觉的正则化效果。完整QSVD在W8A8量化下将KV缓存压缩至18.75%,而W4A4设置下其性能优势更为显著——对比方法QASVD准确率归零时,QSVD仍保持最高指标。实际部署测试中,量化版QSVD因完全避免CPU数据卸载,在RTX 4070显卡上实现13.1倍延迟降低,这标志着大型VLM首次具备消费级硬件部署的可能性。

这项研究的意义不仅在于技术突破,更在于其方法论创新。联合矩阵处理打破了传统分而治之的优化思路,全局秩分配建立了参数重要性评估的新范式,而深度集成的量化方案则为低秩模型的高效部署提供了标准框架。这些进展共同推动视觉语言模型从实验室走向实际应用,为AI技术的民主化进程扫清了关键障碍。

原文和模型


【原文链接】 阅读原文 [ 3044字 | 13分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...