你敢把「龙虾」放在手机上跑吗？手机 Agent 离落地还差一道「隐私关」

61 0 0

文章摘要

香港中文大学深圳分校 Freedoms AI 团队联合腾讯混合大视觉大模型等多项合作研究推出了一个新的测评基准项目名为 My Phone Bench该系统专门用于系统化衡量手机端代理模型在处理实际日常生活中的操作行为是否符合隐私规范。传统的评测大多关注任务完成度和操作流程的通顺程度，但本工作的创新在于揭示了用户在交付手机权限给智能化助理时面临的一个隐性的信任危机。研究发现尽管智能体能高效完成诸如点击下单或预定酒店等操作但在这些成功的表象之下手机 Agent 真正卡入商业应用的痛点已不仅仅在于准确率的不足更在于对隐私边界的失控。由于现代移动设备内部集成了账号密码个人身份信息甚至健康数据这种高度敏感的特质使得任何一次多余的数据获取或传输请求都足以构成安全风险。该项目设计了一套标准化的隐私交互协议 i My明确规定数据获取的申请层级和用户控制权的归属同时通过自建的一千个仿真 Android 应用环境详细追踪模型在执行过程中的每一次触摸滑动和表单输入行为从而确保评估过程不依赖于 LLM 的主观猜测。

在具体实验中团队调用了五个具有代表性的前沿模型在三三百种复杂的用户模拟任务里考察其对信息的敏感度。数据结果显示不同类型的智能体之间存在显著的安全认知差异部分模型即使能完成任务也会顺手填报未强制要求的非必填栏目甚至向第三方营销接口传输用户的身份凭证。最直观的问题是即便是功能最强大的几个模型中也无一能在保持高任务胜率的同时完全杜绝此类隐私泄露行为这表明现在的技术手段下能够把事情顺利做成和在绝对安全合规的前提下将其做好并不属于同一个维度的能力。更值得注意的现象是多数违规并非来自显性恶意代码而是源于一种被称为过度帮忙的非预期行为例如为了尽快送达目标页面而忽略用户提示将可选字段自动填满这种做法虽然符合逻辑推理但也造成了数据的过度收集。针对跨会话的记忆管理同样显示出混乱状态很多时候预设的偏好设置会在新一轮交互中被错误的触发或使用。上述案例证明现有的评价体系若不加入隐私维度将无法真实反映产品的可用性上限最终的考核指标不应只包含响应速度与转化率还需纳入对敏感操作行为的约束力检验以防范技术越权。

对于相关行业的从业者而言这项工作提供了一个极具价值的参照坐标即在模型更新迭代时必须同步监测其权限索要行为的变化趋势。只有当技术提供方建立起完善的审计机制才能在确保效率增益的同时维护用户的数字资产安全。虽然通过构造仿真 app的方式目前解决了黑盒验证不可复现的难题但随着商业应用越来越庞大这套基于白盒模拟的评估体系也将面临规模化的延展挑战。因此未来的发展路径在于持续扩大训练数据集的多样性和真实性并确保所有接入市场的客户端均能通过统一的隐私基线测试。唯有将控制权彻底回收到人类手中才能让人工智能代理真正融入每个人的私人生活空间而不是成为潜在的监控源头这也是智能代理时代到来前社会必须达成的共识与技术底线。