微软Fara-7B计算机操作模型,开启端侧智能代理新时代

AIGC动态6小时前发布 AIGCOPEN
69 0 0
微软Fara-7B计算机操作模型,开启端侧智能代理新时代

 

文章摘要


【关 键 词】 AI模型计算机代理视觉感知合成数据端侧部署

微软发布了专为计算机操作设计的70亿参数智能代理Fara-7B,该模型通过纯视觉感知合成数据训练,在端侧实现了高效能与安全性。与传统聊天机器人不同,Fara-7B能够像人类一样操作鼠标和键盘,在复杂网页环境中完成任务。其轻量级设计不仅性能对标更大模型,还解决了云端模型的响应延迟、隐私泄露和高昂推理成本三大痛点,成为微软探索小语言模型潜力的重要里程碑。

Fara-7B的核心创新在于纯视觉感知的人机交互逻辑。模型完全依赖屏幕截图进行决策,摒弃了传统依赖网页代码结构的方式,实现了与人类视觉体验一致的操作模式。基于Qwen2.5-VL-7B构建的Fara-7B具备128k token上下文处理能力,通过观察-思考-行动的闭环机制执行任务。这种设计大幅提升了模型对各类网页的适应性,不受底层技术更新的限制。

合成数据生成系统是Fara-7B成功的关键。微软开发的Magnetic-One框架通过多智能体协作,自动化生成海量高质量训练数据。系统包含任务提案、求解和验证三个阶段,最终形成14.5万条严格筛选的训练轨迹,覆盖100万个操作步骤。这种数据生成方式有效解决了人工标注成本高、一致性差的问题。

在性能评估方面,Fara-7B展现出显著优势。在WebVoyager测试中达到73.5%的任务成功率,超越GPT-4o等更大模型。特别设计的WebTailBench测试中,其38.4%的成功率同样领先。模型在成本效率上实现突破,平均每个任务仅需16个步骤,远低于同类模型的41步,建立了新的效能平衡点。

安全性设计是Fara-7B的另一大亮点。模型内置关键点识别机制,在敏感操作时主动暂停并请求用户确认。经过包含111个高风险任务的测试,Fara-7B对有害任务的拒绝率达到82%。微软建议在沙盒环境中运行该模型,并通过可审计日志确保操作透明性。这些措施为AI代理的大规模应用构建了信任基础。

Fara-7B的出现标志着端侧智能代理技术的重大进步,其视觉感知方式和高效能设计为自动化日常任务和专业应用开发提供了新可能。随着多模态基础模型的发展和强化学习的应用,这类端侧代理的能力有望实现进一步突破。

原文和模型


【原文链接】 阅读原文 [ 3035字 | 13分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...