腾讯HY- WU要捅模型天花板:让模型每次任务都生成个新大脑

AI-Agent2小时前发布 Si-Planet
63 0 0
腾讯HY- WU要捅模型天花板:让模型每次任务都生成个新大脑

 

文章摘要


【关 键 词】 大模型腾讯混元参数生成图片编辑范式转换

当前大模型领域存在普遍痛点:不少模型公开测评表现优异,但实际落地效果不如预期,核心原因是一套参数做不好所有事。过去三年全球投入数千亿美元训练大模型,参数量从数十亿增长到数千亿,但始终未改变推理时所有请求共用同一套固定参数的模式,当任务多样甚至需求矛盾时,参数只能在冲突中妥协,最终各任务效果都打折扣,这是和训练充分度无关的结构性问题。

全量微调成本过高,作为行业标配的LoRA虽降低了微调成本,但仍没有改变调完之后参数就固定了,所有请求共用同一套的核心问题。相关分析对60种编辑任务、12000个样本做梯度验证,结果显示不同任务对参数的调整方向经常相反,硬塞到一套参数里会互相抵消。若为每个任务单独训练一套参数,不仅会导致模型过度特化,还会产生无法承担的存储管理成本,RAG等检索增强技术也无法解决规则冲突类任务的问题。

腾讯混元团队提出的HY-WU方案,采用全新的功能性记忆思路,不找空间中固定的参数点,而是训练一个参数生成器,每次收到具体输入,实时合成一套专属参数,用完即弃。方案分为三步:先通过视觉语言编码器提取输入的图片信息与用户指令,压缩为条件特征;再将条件特征输入Transformer生成对应任务的LoRA权重,可根据需求生成方向完全相反的参数,全过程在80B基座模型上仅需数秒;最后将生成的LoRA插入固定的基座模型执行编辑,用完即丢弃。该方案还通过锚定切块方案解决了参数形状不统一的工程难点,采用端到端训练,无需预存储大量参数模板。

效果测试显示,HY-WU对主流开源图片编辑器胜率为67%到78%,对多个闭源商业模型也具备优势。两组对照实验验证了参数多不多不是重点,关键是每个输入能拿到跟自己匹配的那套参数。目前该方案仅在图片编辑领域完成验证,后续仍有多个拓展探索方向,若能在语言模型、视频生成、Agent等更多场景复现效果,有可能成为继MoE之后,大模型发展的下一个范式转换

原文和模型


【原文链接】 阅读原文 [ 2790字 | 12分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 doubao-seed-2-0-lite-260215
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...