东南大学耿新团队:模型不是不会做,而是被「挤掉了能力」丨CVPR 2026
文章摘要
【关 键 词】 模型融合、多任务、子空间、内部机制、知识重组
多任务模型融合常因内部表示空间冲突导致性能不稳定,新增任务往往挤占原有任务的关键位置,使得系统需要不断修补而非自然扩展。东南大学耿新团队提出《Model Merging in the Essential Subspace》论文,指出模型有效能力集中分布在少数关键方向上,而非均匀存在于所有参数中。多任务融合失败的根本原因在于关键方向发生重叠和冲突,而非参数未合好。该研究将模型融合从简单参数操作转变为信息分配与共存的问题,旨在让不同任务在同一模型中稳定共存,不再只是不断叠加能力,而是真正长出更多能力而不互相干扰,解决了多任务融合经常越多越乱的普遍问题。
ESM 方法通过两步策略解决干扰问题:一是利用本质子空间分解将不同任务的重要方向分开,避免互相挤占;二是通过极化缩放保留重要信息并抑制不重要部分。整个方法之所以有效,是因为它同时处理了保留什么信息和怎样让这些信息共存这两个核心问题。实验显示,仅保留较少成分时,该方法仍能留下更多有效信息,且特征一致性更高。研究证实任务子空间是一种低维结构,不需要大量数据估计,模型内部已编码稳定的任务响应模式,即使只用极少样本效果也接近最优。在大模型上,虽然提升幅度缩小,但表明大模型本身具备更强的表示容量和更自然的子空间分离能力。
在多任务融合难度上升时,该方法能保持更稳定性能,整体损耗率相比基线低了约 20%,明显逼近多任务融合的理想上界。这项研究真正重要的地方,不只是把结果做高了一些,而是证明了模型融合可以从经验式参数处理,走向对知识结构的理解与重组。这意味着未来 AI 系统更有可能在不反复重训的情况下整合多种能力,降低部署成本和算力消耗。对普通用户而言,这将使 AI 工具更像能力完整的通用助手,而非彼此割裂的小工具,推动学术认识与实际应用的双重进步,让模型内部存在的低维结构被提炼、压缩并重新组合以提升能力,最终体现在更便宜的服务和更快的响应上。
原文和模型
【原文链接】 阅读原文 [ 3902字 | 16分钟 ]
【原文作者】 AI科技评论
【摘要模型】 qwen3.5-397b-a17b
【摘要评分】 ★★★☆☆



