谷歌版贾维斯意外泄露！自主上网购物填表不在话下，“钢铁侠 ”成真指日可待？

AIGC动态2年前 (2024)发布 ai-front

2,768 0 0

文章摘要

【关键词】 AI泄露、Chrome升级、Jarvis AI、数据隐私、自动化任务

谷歌意外泄露了其先进人工智能“Jarvis”的存在，这一AI能够访问网站、在线购物和填写表格。Jarvis基于Chrome平台，标志着自2008年Chrome推出以来最大规模的功能升级。泄露的文件显示，Jarvis是一个能够浏览互联网并自主检索信息的AI智能体。据报道，Jarvis可能接管Chrome浏览器，作为扩展程序短暂出现在Chrome浏览器网络商店中，但需要某些用户无法绕过的访问权限。Jarvis的工作原理是截取计算机屏幕截图，并在执行操作前对截图进行解读，类似于微软的Recall功能。Jarvis的功能似乎是谷歌Bard AI的延伸，结合自然语言理解和高级数据检索功能。目前，Jarvis的反应速度较慢，可能还未准备好进入市场。谷歌原计划在12月公开推出Jarvis，同时推出最新版本的Gemini大型语言模型。此次泄露可能迫使谷歌提前正式发布Jarvis。

AI智能体操控屏幕的未来正在到来，Anthropic推出的新功能可以接管用户的计算机读取和编写JavaScript代码，而谷歌的Jarvis AI智能体似乎要让“钢铁侠”幻想成真。Jarvis基于浏览器，面向更主流的受众市场。OpenAI也在开发这类自主AI智能体，其o1模型泄露事件后，可能很快发展出更多的自主网页浏览功能。微软团队开源的OmniParser，是一款解析和识别屏幕布局的AI工具，能够提取文本、按钮和图标等重要信息，并将这些元素转换成结构化的数据，精准理解用户意图，帮助开发者自主创建用于操控电脑或手机界面的智能体。Apple Intelligence也承诺通过其“屏幕感知”功能实现同样的功能。

随着这类AI驱动浏览变得愈发普遍，围绕数据透明度、访问私人内容和网络数据的道德使用引发的问题也可能进一步激化。谷歌提高工作效率和自动化某些琐碎的任务是其许多AI产品寻找杀手级用例的方向，谷歌也在Workspace应用程序中引入了生成式AI功能。