阿里通义开源GUI智能体SOTA：2B到235B端云协同重新定义移动端GUI智能体

538 0 0

文章摘要

阿里通义实验室开源MAI-UI系列模型，提出覆盖2B至235B参数的全谱系架构，通过端云协同、自进化数据管线及扩展动作空间三大核心技术，系统性解决GUI智能体在真实动态环境中的部署难题。该模型在AndroidWorld等基准测试中刷新多项SOTA纪录，性能显著超越主流竞品，并在办公、生活等高频率场景中展现出实用的自动化能力。

全谱系模型设计首次实现从端侧到云端的无缝适配。MAI-UI包含2B（端侧专用）、8B/32B（平衡型）和235B-A22B（云端超级大脑）四个版本，通过Qwen3-VL架构的联合训练构建基础能力。其创新性的指令即推理（Instruction-as-Reasoning）范式，要求模型从外观、功能等四维视角生成显式推理路径，使复杂界面操作准确率显著提升。面对专业软件的高密度UI，独创的缩放策略通过粗定位+精细裁剪的两阶段处理，在CAD等场景达到行业领先精度。

自进化数据管线突破传统数据瓶颈。该系统整合应用手册解析、专家设计任务与智能体试错三路数据源，通过迭代拒绝采样机制实现数据与模型能力的同步进化。在线强化学习框架支持512个并发环境实例，采用容器化技术确保动态环境的一致性。改进的GRPO算法结合细粒度奖励设计，使模型在AndroidWorld测试中展现出对弹窗、权限请求等异常情况的自主处理能力，长步骤任务成功率提升37%。

原生端云协同架构重新定义隐私与效能的平衡点。端侧智能体兼具执行与监控双重角色，通过统一轨迹记忆模块实现上下文无损切换。隐私检测模块主动屏蔽含敏感信息的操作请求，实验显示该架构减少42.7%云端调用量，端侧任务处理速度提升2.8倍。在敏感操作场景，系统强制保持端侧闭环，从机制上杜绝隐私泄露风险。

突破性扩展动作空间打破UI操作天花板。新增的ask_user动作使智能体具备主动澄清模糊指令的能力，用户调研显示该功能使任务中断率降低62%。MCP协议实现与外部API的直接交互，将传统需要数十步UI操作的任务压缩为几次API调用。在MobileWorld测试中，涉及跨平台操作的任务完成时间平均缩短83%，错误率下降至传统方法的1/5。

基准测试数据印证技术突破的实质影响。235B版本在AndroidWorld达到76.7%成功率，2B端侧模型性能较前代提升75.4%。ScreenSpot-Pro测试73.5%的准确率与MMBench-GUI L2测试91.3%的得分，标志着GUI智能体首次具备商业场景可用性。这些进展共同指向一个核心结论：MAI-UI的技术矩阵已构建起从实验室Demo到真实产品的最短路径。