谷歌Chrome深夜爆更,Agent不用「装」人了!前端最后防线崩了?

AI-Agent2小时前发布 AIera
47 0 0
谷歌Chrome深夜爆更,Agent不用「装」人了!前端最后防线崩了?

 

文章摘要


【关 键 词】 AI技术网页交互谷歌ChromeWebMCP智能代理

谷歌Chrome团队近日发布了WebMCP(Web模型上下文协议),这一技术标志着AI与网页交互方式的重大变革。WebMCP允许AI智能体绕过传统的人类用户界面,直接与网站和Web应用的内核交互,从而彻底重构了底层交互逻辑。在Chrome 146的早期预览版中,开发者可通过开启特定flag体验这一功能。通过简单的API调用(如`navigator.modelContext`),AI能够跳过图形界面,直接向网站发送指令并获取结果,大幅提升了效率。

传统AI代理操作网页的方式依赖于视觉模拟,包括截屏、按钮识别和DOM抓取,存在成本高、稳定性差和反馈低效等问题。WebMCP的诞生解决了这些痛点,实现了从“视觉模拟”到“逻辑直连”的跃迁,使AI代理成为网络的“一等公民”。开发者Alex Volkov将WebMCP比作“UI里的API”,强调了其直接访问结构化服务的能力。谷歌为开发者提供了声明性和命令式两种API接入方式,进一步简化了智能体与网站的交互流程。

WebMCP并非谷歌的独立项目,而是与微软合作开发的开源技术。其核心目标是让网页在保留人类UI的同时,为智能体提供专用通道,实现用户、网页和智能体的三方协作。这一技术具有三大优势:代码复用、统一界面和无障碍支持。通过复用现有前端代码,WebMCP降低了开发门槛;统一界面则确保了交互时的身份验证和状态同步;此外,它还能辅助无障碍技术执行更高层级的操作。

未来,WebMCP可能在电子商务、旅游出行和客户支持等领域引发变革。例如,购物时AI代理可直接调用函数完成秒级下单,旅游预订中能精准处理结构化数据,客户支持中可自动填写工单。开发者Nikoloz Turazashvili指出,WebMCP的核心是“发布工具而非像素”,通过明确的契约(如工具发现、JSON Schemas和状态共识)取代传统的暴力爬取方式。这一技术或将推动互联网分化为人类UI和Agent工具界面两层,最终优胜者将是那些提供最清晰工具契约的应用。

WebMCP的出现预示着“Agentic UI”时代的到来,未来的网页不仅是人类交互的窗口,更是AI自动化服务的节点。这一技术加速了从手动操作到智能体自动执行的范式转移,为互联网交互带来了全新的可能性。

原文和模型


【原文链接】 阅读原文 [ 2058字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...