让外部知识“长入”模型:动态化与参数化 RAG 技术探索

AIGC动态2小时前发布 ai-front
67 0 0
让外部知识“长入”模型:动态化与参数化 RAG 技术探索

 

文章摘要


【关 键 词】 动态RAG参数化注入信息解耦生成增强知识内化

在2025年QCon全球软件开发大会上海站上,清华大学艾清遥博士围绕检索增强生成(RAG)技术的局限性与演进方向展开深度演讲,提出“动态化与参数化RAG”新范式,以应对传统方法中模型作为静态黑箱、信息需求动态感知缺失及知识注入机制不充分等核心问题。其研究聚焦于“何时检索、检索什么、如何注入”三大维度,系统性推动RAG从外挂式辅助走向模型内生能力。

针对“何时检索”的难题,艾清遥团队构建了基于内部状态监测的动态触发机制——通过实时分析大模型生成每个token时的概率熵、关键token不确定性及语义权重等指标,量化评估当前是否存在信息缺口,并据此决定是否启动检索。该机制不仅提升了决策精度,更实现按需调用,显著降低冗余检索频率;实验表明DRAGIN模型相较传统静态方案在多个公开数据集上指标领先,平均检索次数减少约40%。这一路径突破了“每问必查”或固定流程的限制,让模型具备了自主识别知识缺口的能力。

在“如何注入”方面,现有提示词拼接方式面临上下文膨胀、指令稀释与“lost in the middle”效应等挑战。为破解此瓶颈,研究者提出“检索与生成的动态信息解耦”框架,将文档编码移至离线阶段并预存KV表示,线上推理时采用交叉注意力层将外部知识与用户指令并行处理。此设计使模型对输入顺序不敏感、指令遵循能力更强,并克服了静态方案因长文本导致性能下滑的问题;随着文档数量增至20篇,DecoupledRAG仍保持持续增益,而传统方法则呈现先升后降曲线,算法复杂度亦实现由平方级向线性级的优化,尤其适合高延迟敏感场景。

最前沿的探索在于“基于参数化知识注入的RAG”:作者指出传统方法仅依赖注意力网络传递外部知识,却忽视了前馈神经网络(FFN)中已内化的大量推理记忆。由此提出将文档编码为可插拔参数单元(如LoRA适配器),在线推理时直接注入模型FFN层,实现知识与参数深度融合。其核心创新是打破传统“提示词→token→注意力”的路径,改由参数激活直接参与推理过程。实验证明,Parametric RAG相比纯数据增广基线提升明显,且在复杂推理任务中优势尤为突出,因其擅长将知识抽象成深层认知结构而非精准匹配文本片段。同时,LoRA可在离线批量生成、线下存储,上线仅需加权合并即可复用,推理延迟相较静态RAG下降约30%,尤其在处理长篇资料时优势扩大。

文章最后延伸至未来方向,指出生成式AI正推动“检索”本身从独立模块向核心计算能力演化——类比CPU与内存关系,外存式的海量知识库应成为模型基础架构不可分割部分。作者呼吁构建打通内在参数、外部记忆与实时感知三者的动态调度机制,并设计适应不同场景与偏好的自适应体系架构。最终提出,下一代信息检索的核心命题将转向“如何建立可持续扩展的学习闭环”,而这正是通用人工智能真正落地的关键起点。

原文和模型


【原文链接】 阅读原文 [ 7427字 | 30分钟 ]
【原文作者】 AI前线
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...