阿里通义开源GUI智能体SOTA:2B到235B端云协同重新定义移动端GUI智能体

AIGC动态3小时前发布 AIGCOPEN
60 0 0
阿里通义开源GUI智能体SOTA:2B到235B端云协同重新定义移动端GUI智能体

 

文章摘要


【关 键 词】 AI模型开源技术端云协同智能交互自动化任务

阿里通义实验室开源MAI-UI系列模型,提出覆盖2B至235B参数的全谱系架构,通过端云协同、自进化数据管线及扩展动作空间三大核心技术,系统性解决GUI智能体在真实动态环境中的部署难题。该模型在AndroidWorld等基准测试中刷新多项SOTA纪录,性能显著超越主流竞品,并在办公、生活等高频率场景中展现出实用的自动化能力。

全谱系模型设计首次实现从端侧到云端的无缝适配。MAI-UI包含2B(端侧专用)、8B/32B(平衡型)和235B-A22B(云端超级大脑)四个版本,通过Qwen3-VL架构的联合训练构建基础能力。其创新性的指令即推理(Instruction-as-Reasoning)范式,要求模型从外观、功能等四维视角生成显式推理路径,使复杂界面操作准确率显著提升。面对专业软件的高密度UI,独创的缩放策略通过粗定位+精细裁剪的两阶段处理,在CAD等场景达到行业领先精度。

自进化数据管线突破传统数据瓶颈。该系统整合应用手册解析、专家设计任务与智能体试错三路数据源,通过迭代拒绝采样机制实现数据与模型能力的同步进化。在线强化学习框架支持512个并发环境实例,采用容器化技术确保动态环境的一致性。改进的GRPO算法结合细粒度奖励设计,使模型在AndroidWorld测试中展现出对弹窗、权限请求等异常情况的自主处理能力,长步骤任务成功率提升37%。

原生端云协同架构重新定义隐私与效能的平衡点。端侧智能体兼具执行与监控双重角色,通过统一轨迹记忆模块实现上下文无损切换。隐私检测模块主动屏蔽含敏感信息的操作请求,实验显示该架构减少42.7%云端调用量,端侧任务处理速度提升2.8倍。在敏感操作场景,系统强制保持端侧闭环,从机制上杜绝隐私泄露风险。

突破性扩展动作空间打破UI操作天花板。新增的ask_user动作使智能体具备主动澄清模糊指令的能力,用户调研显示该功能使任务中断率降低62%。MCP协议实现与外部API的直接交互,将传统需要数十步UI操作的任务压缩为几次API调用。在MobileWorld测试中,涉及跨平台操作的任务完成时间平均缩短83%,错误率下降至传统方法的1/5。

基准测试数据印证技术突破的实质影响。235B版本在AndroidWorld达到76.7%成功率,2B端侧模型性能较前代提升75.4%。ScreenSpot-Pro测试73.5%的准确率与MMBench-GUI L2测试91.3%的得分,标志着GUI智能体首次具备商业场景可用性。这些进展共同指向一个核心结论:MAI-UI的技术矩阵已构建起从实验室Demo到真实产品的最短路径。

原文和模型


【原文链接】 阅读原文 [ 3901字 | 16分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...