让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

119 0 0

文章摘要

传统搜索Agent普遍采用ReAct框架，执行流程为严格串行的想→调工具→等结果→再想→再调工具→再等……，每轮“思考”与“调用工具”环节完全串行，等待搜索引擎返回结果时模型全程闲置，多轮叠加后端到端延迟大幅增加，严重拉低用户体验。自回归模型因因果注意力限制，无法在等待时并行思考，调整输出顺序会导致准确率显著下降，难以破解串行等待难题。

扩散语言模型天生能实现“一心二用”，其核心优势在于并非从左到右逐个生成token，而是所有位置同时“去噪”逐步浮现完整文本，生成顺序自由且在解码前已具备潜在推理信息。但原始扩散大语言模型（dLLM）直接作为搜索Agent效果极差，在HotpotQA测试中成功率为0%，因格式错误、未调用工具等问题全部失败，说明其虽有并行潜力，却缺乏推理和工具调用能力。

研究团队设计两阶段训练流程解决这一问题：第一阶段通过Agentic SFT，利用豆包Seed-1.8生成的高质量轨迹，结合Agentic Noising和Agentic ELBO损失函数，让dLLM精准学习推理与工具调用逻辑，避免训练时的信息泄露；第二阶段Agentic VRPO筛选答对与答错的轨迹对进行偏好优化，使所有数据集准确率提升3个百分点以上。

在此基础上，团队提出无需额外训练的P-ReAct推理加速方案：通过预填充边界标记指定工具调用区域，并对该区域置信度加正偏置，让模型优先解码工具调用并发送给搜索引擎，同时在等待结果时继续填充思考部分，实现“先动手、后想明白”，带来14.77%到22.08%的端到端推理加速且性能几乎无损失。

最终，DLLM-Searcher在四个多跳问答基准上平均准确率达57.0（ACC_R）/56.6（ACC_L），全面超越传统RAG方法，与自回归搜索Agent R1Searcher持平甚至小幅领先，且仅用不到8000条训练数据就在域外数据集Bamboogle上取得68.8的高分，泛化能力强劲。这一成果证明经针对性训练的dLLM可追上自回归模型的推理能力，还能凭借并行生成优势实现等待时持续思考，为搜索Agent效率优化开辟了全新路径。