文章摘要
【关 键 词】 云手机、多模态AI、自动化操作、RedClaw、跨端协同
该产品由百度智能云团队推出,命名为RedClaw(原名红手指 Operator),核心目标是实现对移动端App的自动化操作,其技术路径区别于端侧方案(如豆包手机),采用云端虚拟安卓设备执行任务。用户在本地手机下发自然语言指令,系统在云端分配一台隔离的虚拟安卓手机,通过截图或画面流回传界面信息,由VLA(Vision-Language-Action)多模态大模型理解屏幕内容并规划操作步骤,再经MCP标准化接口与ADB调试通道将点击、滑动、输入等动作注入云端设备;敏感环节如登录、支付则自动切换为用户手动接管,保障安全性与合规性。
RedClaw的技术架构分为三层:底层为基于百度ARM云服务的计算资源,支撑多台并发虚拟安卓实例;中层为VLA模型,负责语义理解、视觉识别与动作推理;上层为执行层,完成具体交互指令。该设计绕过了手机厂商系统权限限制,使产品可作为普通App部署于Android或iOS终端,理论上支持全平台接入。例如,当用户要求“预约《飞驰人生3》”,系统能自动检测缺失App、前往应用市场下载安装、启动爱奇艺、搜索片名并触发预约流程,在登录环节主动交还控制权;类似逻辑也适用于订票任务——根据用户偏好选择携程、美团或飞猪,并可将完整流程固化为可复用的Skill,结合记忆能力实现个性化长期适配,即所谓“养虾”机制。
此外,RedClaw支持定时任务设定,可用于生成周报、日常提醒等场景;其入口同时集成OpenClaw能力,允许用户在同一平台调用云端电脑操作浏览器与云端手机操作App的功能,形成跨端协同的Agent工作流。目前产品已具备基本可用性,但存在操作延迟等问题,且面临App厂商对开放自动化接口的潜在阻力。尽管短期内商业化落地节奏受限于生态博弈,但行业共识正趋明确:Agent能否直接操作应用已成为评估产品开放性与未来价值的关键指标;Chrome等平台已显现出对Agent接入的支持姿态,表明以自然语言驱动端到端任务执行的技术路径已不可逆。
原文和模型
【原文链接】 阅读原文 [ 2472字 | 10分钟 ]
【原文作者】 AI产品阿颖
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★★★☆☆



