
文章摘要
【关 键 词】 WebAgent、信息检索、WebDancer、开源技术、强化学习
今天凌晨,阿里巴巴开源了创新自主搜索AI Agent——WebAgent。搜索信息在学术研究、商业决策和日常生活中至关重要,但传统信息检索系统难以满足复杂需求。WebAgent具备端到端的自主信息检索与多步推理能力,能像人类一样在网络环境中主动感知、决策和行动。它可主动搜索多个学术数据库,筛选相关文献并进行深入分析总结,还能整合不同文献观点,提供全面精准的研究报告。其开源地址为https://github.com/Alibaba-NLP/WebAgent 。
WebAgent依托的WebDancer框架由四大块组成。浏览数据构建是框架起点,WebDancer采用两种创新的数据合成方法解决传统数据集局限性。CRAWLQA通过爬取网页信息构建复杂QA对,模拟人类浏览行为收集信息,并用强大模型生成有深度和多样性的QA对;E2HQA通过迭代增强将简单QA对转化为复杂多步问题,为训练提供丰富素材。
轨迹采样阶段,WebDancer基于ReAct框架,通过拒绝采样技术生成高质量轨迹。它采用短推理和长推理方法生成轨迹,并经过有效性检查、正确性验证和质量评估三个阶段过滤,确保轨迹能为智能体学习提供高质量指导。
监督微调(SFT)阶段,目标是通过高质量轨迹数据对智能体进行初始化训练,使其适应信息检索任务要求。计算损失函数时排除外部反馈影响,保证模型专注自主决策过程,为后续强化学习打下基础。
强化学习(RL)阶段是关键环节。WebDancer采用DAPO算法,通过动态采样机制提高数据效率和策略鲁棒性。智能体通过与环境交互,多次尝试和反馈优化决策策略,实现高效的多步推理和信息检索能力。
原文和模型
【原文链接】 阅读原文 [ 1229字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 doubao-1.5-pro-32k
【摘要评分】 ★★★☆☆