文章摘要
【关 键 词】 AI技术、移动智能、GUI智能体、数据标注、强化学习
随着移动智能技术的快速发展,手机端AI“超级入口”成为行业竞争的新焦点。GUI Agent(图形用户界面智能体)凭借重塑流量分发格局的潜力,催生了千亿级市场机遇,吸引了苹果、华为、字节跳动、美团、智谱AI等企业的广泛布局。中兴通讯通过自研技术框架,在这一领域取得了显著进展,其Nebula-GUI模型在AgentCLUE-mobile测评中以7B参数量获得总榜银牌,总分84.38,UI元素定位得分高达93.17,尤其在自动点餐、订票等复杂任务中表现优异。目前,该模型已在中兴多款手机商用,覆盖30余款主流APP,常用场景平均准确率超过90%。
数据是GUI Agent性能的核心支撑,但行业面临高质量中文GUI数据稀缺、跨APP操作数据不足等挑战。中兴开发了一套端到端数据制备系统,包括数据标注工具、自动化数据PIPELINE和轨迹数据生成系统,显著提升了数据质量和效率。其中,一体化数据标注工具将分散的人工流程整合为自动化流水线,标注效率提升3倍;自动化数据Pipeline则解决了人工标注导致的逻辑不一致问题,增强了模型泛化能力。此外,全时数据飞轮平台通过集约化管控设备资源,实现了数据生产的规模化和高效化。
在模型训练方面,中兴通过监督微调(SFT)将通用多模态模型优化为具备“感知-理解-执行-规划-纠错”能力的GUI智能体。模型在中文GUI界面的基础感知能力、单步操作精度和复杂任务规划能力上均取得突破。例如,单步操作准确率超过95%,部分简单指令达到99%。同时,通过引入自我反思纠错机制,模型能够识别异常页面状态并回到正确流程,显著提升了系统韧性。
为进一步提升模型性能,中兴提出了双层强化学习范式,结合离线步骤级连续奖励与在线任务级强化训练。离线阶段,通过多维度精细化奖励(如准确性奖励、置信度奖励和一致性奖励)引导模型优化微观行为;在线阶段,则利用任务级轨迹奖励模型和稀疏奖励分配方法,增强模型在动态环境中的适应性和鲁棒性。这一方法使模型从简单的模仿学习转向自主进化,显著提升了复杂任务中的表现。
中兴Nebula-GUI模型的成功标志着GUI Agent技术从实验室走向商用,未来有望进一步覆盖更多APP和使用场景,并拓展至智能办公、软件开发等领域。随着技术的持续迭代,GUI Agent或将成为手机“超级入口”的核心载体,为用户带来更智能、更便捷的交互体验。
原文和模型
【原文链接】 阅读原文 [ 5202字 | 21分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




