腾讯HY- WU要捅模型天花板：让模型每次任务都生成个新大脑

63 0 0

文章摘要

当前大模型领域存在普遍痛点：不少模型公开测评表现优异，但实际落地效果不如预期，核心原因是一套参数做不好所有事。过去三年全球投入数千亿美元训练大模型，参数量从数十亿增长到数千亿，但始终未改变推理时所有请求共用同一套固定参数的模式，当任务多样甚至需求矛盾时，参数只能在冲突中妥协，最终各任务效果都打折扣，这是和训练充分度无关的结构性问题。

全量微调成本过高，作为行业标配的LoRA虽降低了微调成本，但仍没有改变调完之后参数就固定了，所有请求共用同一套的核心问题。相关分析对60种编辑任务、12000个样本做梯度验证，结果显示不同任务对参数的调整方向经常相反，硬塞到一套参数里会互相抵消。若为每个任务单独训练一套参数，不仅会导致模型过度特化，还会产生无法承担的存储管理成本，RAG等检索增强技术也无法解决规则冲突类任务的问题。

腾讯混元团队提出的HY-WU方案，采用全新的功能性记忆思路，不找空间中固定的参数点，而是训练一个参数生成器，每次收到具体输入，实时合成一套专属参数，用完即弃。方案分为三步：先通过视觉语言编码器提取输入的图片信息与用户指令，压缩为条件特征；再将条件特征输入Transformer生成对应任务的LoRA权重，可根据需求生成方向完全相反的参数，全过程在80B基座模型上仅需数秒；最后将生成的LoRA插入固定的基座模型执行编辑，用完即丢弃。该方案还通过锚定切块方案解决了参数形状不统一的工程难点，采用端到端训练，无需预存储大量参数模板。

效果测试显示，HY-WU对主流开源图片编辑器胜率为67%到78%，对多个闭源商业模型也具备优势。两组对照实验验证了参数多不多不是重点，关键是每个输入能拿到跟自己匹配的那套参数。目前该方案仅在图片编辑领域完成验证，后续仍有多个拓展探索方向，若能在语言模型、视频生成、Agent等更多场景复现效果，有可能成为继MoE之后，大模型发展的下一个范式转换。