让外部知识“长入”模型：动态化与参数化 RAG 技术探索

67 0 0

文章摘要

在2025年QCon全球软件开发大会上海站上，清华大学艾清遥博士围绕检索增强生成（RAG）技术的局限性与演进方向展开深度演讲，提出“动态化与参数化RAG”新范式，以应对传统方法中模型作为静态黑箱、信息需求动态感知缺失及知识注入机制不充分等核心问题。其研究聚焦于“何时检索、检索什么、如何注入”三大维度，系统性推动RAG从外挂式辅助走向模型内生能力。

针对“何时检索”的难题，艾清遥团队构建了基于内部状态监测的动态触发机制——通过实时分析大模型生成每个token时的概率熵、关键token不确定性及语义权重等指标，量化评估当前是否存在信息缺口，并据此决定是否启动检索。该机制不仅提升了决策精度，更实现按需调用，显著降低冗余检索频率；实验表明DRAGIN模型相较传统静态方案在多个公开数据集上指标领先，平均检索次数减少约40%。这一路径突破了“每问必查”或固定流程的限制，让模型具备了自主识别知识缺口的能力。

在“如何注入”方面，现有提示词拼接方式面临上下文膨胀、指令稀释与“lost in the middle”效应等挑战。为破解此瓶颈，研究者提出“检索与生成的动态信息解耦”框架，将文档编码移至离线阶段并预存KV表示，线上推理时采用交叉注意力层将外部知识与用户指令并行处理。此设计使模型对输入顺序不敏感、指令遵循能力更强，并克服了静态方案因长文本导致性能下滑的问题；随着文档数量增至20篇，DecoupledRAG仍保持持续增益，而传统方法则呈现先升后降曲线，算法复杂度亦实现由平方级向线性级的优化，尤其适合高延迟敏感场景。

最前沿的探索在于“基于参数化知识注入的RAG”：作者指出传统方法仅依赖注意力网络传递外部知识，却忽视了前馈神经网络（FFN）中已内化的大量推理记忆。由此提出将文档编码为可插拔参数单元（如LoRA适配器），在线推理时直接注入模型FFN层，实现知识与参数深度融合。其核心创新是打破传统“提示词→token→注意力”的路径，改由参数激活直接参与推理过程。实验证明，Parametric RAG相比纯数据增广基线提升明显，且在复杂推理任务中优势尤为突出，因其擅长将知识抽象成深层认知结构而非精准匹配文本片段。同时，LoRA可在离线批量生成、线下存储，上线仅需加权合并即可复用，推理延迟相较静态RAG下降约30%，尤其在处理长篇资料时优势扩大。

文章最后延伸至未来方向，指出生成式AI正推动“检索”本身从独立模块向核心计算能力演化——类比CPU与内存关系，外存式的海量知识库应成为模型基础架构不可分割部分。作者呼吁构建打通内在参数、外部记忆与实时感知三者的动态调度机制，并设计适应不同场景与偏好的自适应体系架构。最终提出，下一代信息检索的核心命题将转向“如何建立可持续扩展的学习闭环”，而这正是通用人工智能真正落地的关键起点。