文章摘要
【关 键 词】 智能体、网页环境、状态机、轨迹验证、数据合成
针对训练图形用户界面智能体时真实网页内部状态不可见导致轨迹验证困难的问题,研究团队提出了一种由有限状态机驱动的网页环境生成框架AutoWebWorld。该框架的核心思想是将网页从黑盒转化为可验证的交互世界,通过显式定义环境内部规则来实现轨迹的内在验证。
在技术流程上,系统首先生成有限状态机以描述交互语义,随后将其转化为可运行的网站前端。接着,基于状态转移图搜索候选轨迹,并在合成的网站中执行真实操作以过滤出合法的验证轨迹。这一设计将轨迹生成与验证统一于环境内部,使得任务成功与否可通过是否达到目标状态来准确判断。
在数据规模与成本方面,该框架合成了二十九个网页环境,生成了一万余条验证轨迹,平均轨迹长度显著高于现有真实网页数据集,更侧重于长程交互与跨页面状态追踪。同时,其单条轨迹的生成成本大幅低于传统真实网页数据收集方式,展现出极高的经济效益。
实验结果表明,使用合成数据训练的模型在真实网页导航和元素定位任务中均取得了显著提升。在网页导航评估中,七百亿参数模型的整体成功率超越了现有基线模型,且在更具挑战性的视觉定位测试中同样表现出稳定的性能收益。
此外,研究还揭示了合成数据规模与模型性能之间的缩放关系。随着合成数据规模的扩大,模型在真实网页任务上的成功率呈现稳定上升趋势,证明了该框架具备持续扩展的数据生成潜力。
总体而言,该工作提供了一种能够稳定生产可验证交互数据的环境生成机制,从根本上改变了依赖外部评估的传统模式,为解决智能体训练中的数据瓶颈提供了创新且高效的解决方案。
原文和模型
【原文链接】 阅读原文 [ 2549字 | 11分钟 ]
【原文作者】 量子位
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★★



