通义实验室最新成果WebDancer:开启自主智能Deep Research的新时代

文章摘要
【关 键 词】 信息检索、智能体训练、数据合成、开放环境、多步推理
在当今信息爆炸的时代,解决复杂问题需要深入的信息挖掘和多步推理。自主信息检索智能体的构建面临两大核心挑战:高质量训练数据的稀缺与开放环境训练的复杂性。WebDancer通过创新的数据合成策略和两阶段训练方法,为这些问题提供了系统性解决方案。
数据稀缺问题通过CRAWLQA和E2HQA两种方法得到突破性解决。CRAWLQA通过模拟人类浏览行为从权威网站提取知识,构建复杂的问答对;E2HQA则通过逐步增强问题复杂度,形成从易到难的训练序列。获得初步数据后,采用ReAct框架进行思维链蒸馏,并通过多阶段过滤机制确保数据质量,包括有效性控制、正确性验证和质量评估三个关键环节。
开放环境训练采用监督微调(SFT)和强化学习(RL)的两阶段策略。SFT阶段作为”冷启动”,利用高质量轨迹数据进行初步训练;RL阶段采用DAPO算法进行动态采样优化,显著提升数据利用效率。这种方法不仅降低了强化学习的计算成本,还提高了智能体在动态环境中的适应能力。
实验验证表明,WebDancer在GAIA和WebWalkerQA等基准测试中表现卓越。在GAIA数据集上,WebDancer在不同难度级别的任务中均保持稳定高性能;在WebWalkerQA上,其处理复杂任务的能力尤为突出。分析实验揭示:强化学习对普通指令模型提升显著;6k条高质量长思维链数据即可取得良好效果;长短思维链模式在不同模型间的转换存在挑战。
未来发展方向包括集成更多复杂工具如浏览器建模和Python沙盒环境,以及扩展到开放域长文本写作任务。与依赖强大闭源模型的prompting工程不同,WebDancer专注于从头训练具有自主智能能力的开源模型,这为理解智能体在开放系统中的产生和扩展机制提供了重要参考。
WebDancer的系统化训练范式为构建长期信息检索智能体提供了清晰路径,其成功不仅展示了自主智能体在科研和教育中的潜力,更为开源社区复现DeepResearch类系统奠定了重要基础。这项工作的核心价值在于通过严谨的数据构建和算法设计,实现了自主智能体能力的可复现性发展。
原文和模型
【原文链接】 阅读原文 [ 3282字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★