谷歌Chrome深夜爆更，Agent不用「装」人了！前端最后防线崩了？

603 0 0

文章摘要

【关键词】 AI技术、网页交互、谷歌Chrome、WebMCP、智能代理

谷歌Chrome团队近日发布了WebMCP（Web模型上下文协议），这一技术标志着AI与网页交互方式的重大变革。WebMCP允许AI智能体绕过传统的人类用户界面，直接与网站和Web应用的内核交互，从而彻底重构了底层交互逻辑。在Chrome 146的早期预览版中，开发者可通过开启特定flag体验这一功能。通过简单的API调用（如`navigator.modelContext`），AI能够跳过图形界面，直接向网站发送指令并获取结果，大幅提升了效率。

传统AI代理操作网页的方式依赖于视觉模拟，包括截屏、按钮识别和DOM抓取，存在成本高、稳定性差和反馈低效等问题。WebMCP的诞生解决了这些痛点，实现了从“视觉模拟”到“逻辑直连”的跃迁，使AI代理成为网络的“一等公民”。开发者Alex Volkov将WebMCP比作“UI里的API”，强调了其直接访问结构化服务的能力。谷歌为开发者提供了声明性和命令式两种API接入方式，进一步简化了智能体与网站的交互流程。

WebMCP并非谷歌的独立项目，而是与微软合作开发的开源技术。其核心目标是让网页在保留人类UI的同时，为智能体提供专用通道，实现用户、网页和智能体的三方协作。这一技术具有三大优势：代码复用、统一界面和无障碍支持。通过复用现有前端代码，WebMCP降低了开发门槛；统一界面则确保了交互时的身份验证和状态同步；此外，它还能辅助无障碍技术执行更高层级的操作。

未来，WebMCP可能在电子商务、旅游出行和客户支持等领域引发变革。例如，购物时AI代理可直接调用函数完成秒级下单，旅游预订中能精准处理结构化数据，客户支持中可自动填写工单。开发者Nikoloz Turazashvili指出，WebMCP的核心是“发布工具而非像素”，通过明确的契约（如工具发现、JSON Schemas和状态共识）取代传统的暴力爬取方式。这一技术或将推动互联网分化为人类UI和Agent工具界面两层，最终优胜者将是那些提供最清晰工具契约的应用。

WebMCP的出现预示着“Agentic UI”时代的到来，未来的网页不仅是人类交互的窗口，更是AI自动化服务的节点。这一技术加速了从手动操作到智能体自动执行的范式转移，为互联网交互带来了全新的可能性。